人类视觉系统如何利用物体属性理解场景的真实性和类别性

背景介绍

在人类视觉系统中,自然场景的理解和导航无论从复杂性还是从效率上都表现得非常出色。这一过程需要将传入的感官信息转化为包括低级到高级的视觉特征,如边缘、物体部件和物体本身,进一步反映真实世界场景中物体共现的统计学特点。其中,两类重要的物体属性引入了“锚点物体”(anchor objects)和“诊断物体”(diagnostic objects)的概念。锚点物体是指高频共现且可以预测其位置和身份的物体,而诊断物体则是指能够预测场景大语境(即场景类别)的物体。

由Aylin Kallmayer和Melissa L.-H. Võ来自Goethe University Frankfurt的心理学系会聚研究,这篇发表于《Communications Psychology》期刊的文章探讨了锚点物体和诊断物体在人类视觉处理中的作用。

研究来源与背景

本文由两位作者完成,并发表于2024年的《Communications Psychology》期刊。文章探讨了视觉系统如何利用这些物体属性在理解场景的两个维度——真实性和类别性——中发挥作用。为了进行这一研究,作者们采用了生成对抗网络(Generative Adversarial Networks, GANs)生成的图像,这些图像在真实性和类别上的表现各异。

研究流程

在本文中,研究主要分为两部分:实验一探讨了场景的真实性,实验二探讨了场景的分类性。具体流程如下:

实验一:真实性探讨

  1. 参与者和设计

    • 50名参与者(36名女性,14名男性,平均年龄20.74岁)。
    • 实验使用150张生成图像和150张真实照片,涵盖五个室内场景类别:卧室、会议室、餐厅、厨房和客厅。
  2. 实验步骤

    • 参与者在50毫秒或500毫秒内观察图像,并判断图像的真实性(真实或生成)。
  3. 数据收集及分析

    • 采用ROC曲线和AUC分数评估参与者的表现。
    • 使用(广义)线性混合效应模型((G)LMMS)进行数据分析。

实验二:分类性探讨

  1. 参与者和设计

    • 44名参与者(30名女性,14名男性,平均年龄23.2岁)。
    • 使用与实验一相同的生成图像和部分真实照片。
  2. 实验步骤

    • 参与者进行五选一的场景分类任务,场景类别包括卧室、会议室、餐厅、厨房和客厅。
  3. 数据收集及分析

    • 使用(广义)线性混合效应模型((G)LMMS)和ROC/AUC进行数据分析。

研究结果

实验一:真实性探讨

在50毫秒条件下,参与者的表现仅略高于随机(AUC = 0.6);而在500毫秒条件下,表现显著提高(AUC = 0.92,P < 0.05)。通过回归分析发现,高级视觉特征和锚点物体属性显著影响了图像的真实性判断。具体数据如下: - 高级特征最高解释了响应和评级中方差的60%(最高差异值bin10 = 0.53,P < 0.05)。 - 锚点物体属性在不考虑图像类型、展示时间和诊断性情况下显著影像真实性评分(β = 0.18,SE = 0.06)。

实验二:分类性探讨

分类准确性主要由高级视觉特征和诊断物体属性解释。详见数据: - 在50毫秒条件下对生成和真实图像的分类准确性(生成图像最高差异值bin10 = 0.18, P < 0.05)。 - 现实感作为一个连续预测因子显著影响分类准确性(β = 0.48,SE = 0.16)。 - 诊断物体属性显著预测了分类准确性(β = 0.53,SE = 0.16)。

研究结论

这项研究证明了锚点物体和诊断物体在不同维度的场景理解中发挥不同的作用。具体表现为: - 锚点物体通过影响低级到高级视觉特征的分布来增强场景的真实性。 - 诊断物体则主要通过增加场景的类别特异性来提高场景的分类准确性。

研究亮点

这项研究的重要发现之一是,生成的场景在短时间内看起来更真实,但在长时间展示时更容易被区分。这表明锚点物体在迅速的场景理解中发挥了重要作用。另一方面,诊断物体在提高分类准确性方面具有显著作用,即使图像中存在噪声。

意义与价值

研究结果表明,人类视觉系统能够在各种视觉特征层次上灵活应对扰动,从而在复杂的场景处理中保持高效。这为进一步探索人类视觉认知的复杂性提供了重要的理论基础和实用意义。在应用层面,理解锚点物体和诊断物体的不同功能有助于提高计算机视觉系统和人工智能在复杂视觉任务中的表现。

未来的研究可以利用生成对抗网络(GANs)生成的图像,以进一步探讨视觉处理和认知的更多复杂维度。尤其是结合深度神经网络(DNNs),有望揭示更多关于人类视觉系统的运作机制。