使用深度神经网络揭示人类感知和记忆中视觉与语义信息

利用深度神经网络区分人类感知和记忆中的视觉和语义信息

引言

在认知科学领域,一直存在关于人类如何在感知和记忆过程中进行人物和物体识别的研究兴趣。识别人和物的成功依赖于将感知系统生成的表征与存储在记忆中的表征进行匹配。然而,这些心理表征并非外部世界的精确副本,而是大脑的重构。了解这种重构的内容和过程是一项长期存在的挑战。这篇论文尝试通过利用深度神经网络(DNN)来揭示人类在熟悉的面孔和物体进行感知和记忆时的心理表征的内容。

论文来源

这篇论文由 Adva Shoham、西丹·丹尼尔·格罗斯巴德、Or Patashnik、Daniel Cohen-Or 和 Galit Yovel 撰写,作者全部来自Tel Aviv University。论文于2024年2月8日在线发表于《Nature Human Behaviour》。

研究背景和目的

人类的心理表征由视觉和语义信息组成。然而,区分这些信息的贡献具有挑战性,因为它们通常在心理表征中混合在一起。近年来,通过在图像或文本上训练的深度神经网络可以生成纯视觉或纯语义表征,提供了分离这些信息的新方法。本研究旨在利用这些神经网络来量化熟悉刺激在感知和记忆中的视觉、视觉-语义和纯语义信息的贡献。

研究方法

实验设计

研究采用了四种神经网络模型:视觉模型(VGG-16)、视觉-语义模型(CLIP)和语义模型(SGPT),以预测人类在感知和记忆中的心理表征。实验具体分为以下步骤:

  1. 选择研究对象

    • 面孔:选择了20个国际知名的人物,包括政治人物和娱乐名人。
    • 物体:选择了20个熟悉的物体。
  2. 训练和调整模型

    • 视觉模型 (VGG-16):Training on VGGFace2 dataset, fine-tuned to 20 familiar identities.
    • 视觉-语义模型 (CLIP):利用来自互联网上的400百万图像和描述进行联合训练。
    • 语义模型 (SGPT):基于自然语言处理算法,处理Wikipedia中的首段文字描述。
  3. 参与者的相似性评分

    • 视觉相似性:人类参与者对面孔和物体的图像给出视觉相似性评分。
    • 记忆重构:基于名字回忆面孔或物体,并给出相似性评分。
  4. 数据分析和几何构建

    • 通过余弦距离计算不同表征之间的相似性。
    • 构建代表性不相似度矩阵(RDMs),并利用t-SNE进行可视化。

实验流程详述

  1. 面孔表征的感知与记忆

    • 20位国际知名政治人物和娱乐名人。
    • 训练和验证视觉神经网络模型,并进行面孔图像特征向量的提取和相似性计算。
  2. 对象表征的感知与记忆

    • 通过挑选对象图像,计算其在视觉、视觉-语义和语义神经网络下的不相似度。
    • 人类参与者对这些对象进行视觉记忆的相似性评分,并进行数据统计和验证。

研究结果

面孔感知与记忆的表征

  1. 感知与记忆之间的高相关性:参与者生成的视觉表征在记忆中的重构与其在感知中的表征高度相关 (r = 0.77, p < 0.001)。
  2. 视觉与语义信息的独立贡献
    • 视觉信息在感知中的贡献更大(r = 0.37, t = 11.5, p < 0.001)。
    • 语义信息在记忆中的贡献显著(r = 0.41, t = 6.42, p < 0.001)。
    • 新模型(CLIP)的独特视觉-语义贡献:视觉-语义模型在感知和记忆中的贡献均显著。

物体表征的感知与记忆

  1. 对象在感知和记忆中的高相关性:对象在图像展示和回忆过程中表现出较高的相关性 (r = 0.78, p < 0.001)。
  2. 三种信息的独立贡献
    • 视觉、视觉-语义与语义模型在记忆中的贡献 (vgg: r = 0.15, t = 3.01, p = 0.007; clip: r = 0.21, t = 10.9, p < 0.001; sgpt: r = 0.43, t = 7.43, p < 0.001)。

结论与价值

结论

研究发现视觉、视觉-语义和语义信息在人的感知和记忆中的表征拥有独特且互补的贡献。视觉信息在感知过程中占主导,而语义信息在记忆重构中更为重要。此外,CLIP模型展示了其独特的视觉-语义整合性能,能够更好地预测人类的心理表征,从而提供了新的认知模型理解。

研究意义

  • 科学价值:揭示了视觉与语义在记忆和感知中的独立及交互贡献,反证了当前关于面孔和对象识别的认知模型。
  • 应用价值:提供了用来模拟人类心理表征的算法,潜在应用于改善智能系统和认知训练方案。

研究亮点

  • 创新性:首次利用DNNs全面分离并量化视觉和语义信息的独立贡献。
  • 方法论:采用多种模型结合,验证了多模态信息在心理表征中的整合贡献。

这些发现不仅丰富了我们对人类心理表征机制的理解,同时也为提升人工智能模型预测人类行为提供了参考。进一步的研究可利用这些算法研究更多类别和领域的心理表征,从而推动计算机与人类一般智能的不断发展与融合。