基于格式塔理论的视觉注意力建模

背景介绍

在计算机视觉领域,视觉注意力模型的研究旨在模拟人类视觉系统如何从图像或自然场景中选择感兴趣的区域。人类大脑能够快速且准确地识别视觉场景中的显著区域,这一能力在图像处理、目标识别、图像分割等任务中具有重要意义。然而,如何有效地检测图像中的多个显著物体仍然是一个具有挑战性的问题。

格式塔理论(Gestalt Theory)是现代认知学习理论的基础,强调“整体大于部分之和”,其中相似性(similarity)和邻近性(proximity)是两个重要原则。尽管格式塔理论为视觉感知研究提供了重要的理论支持,但如何将其应用于多显著物体检测仍然存在技术难题。本研究提出了一种基于格式塔理论的显著性模型——颜色相似性与空间邻近性模型(CSSP模型),旨在通过结合颜色相似性和空间邻近性,更有效地检测图像中的多个显著物体。

论文来源

该论文由Guang-Hai Liu和Jing-Yu Yang共同撰写,分别来自中国广西师范大学计算机科学与工程学院和南京理工大学计算机科学与技术学院。论文于2025年发表在Cognitive Computation期刊上,题为《Modeling Visual Attention Based on Gestalt Theory》。论文详细介绍了CSSP模型的设计、实现及其在多个公开数据集上的实验结果。

研究流程与实验设计

1. 模型设计

CSSP模型的核心思想是通过结合颜色相似性和空间邻近性来检测显著物体。具体流程包括以下几个步骤:

1.1 图像分割

首先,使用简单线性迭代聚类(SLIC)算法将输入图像分割为多个区域(超像素)。超像素的数量设置为30,以确保每个区域的大小适中,便于后续处理。

1.2 区域检索

基于颜色差异直方图(CDH)方法,计算每个区域的颜色相似性。CDH方法通过计算两个区域之间的颜色差异来反映其相似性。同时,引入空间邻近性权重(wd)来调整区域之间的距离,确保邻近区域更有可能被视为一个整体。

1.3 显著性评分计算

CSSP模型提出了两种显著性评分计算方法:未控制显著性评分(USS)和控制显著性评分(CSS)。USS仅基于颜色相似性和空间邻近性计算,而CSS则进一步引入了颜色差异的对数特性,以更好地反映人类视觉系统的感知特性。

1.4 显著性图融合

通过将USS和CSS的评分进行融合,生成最终的显著性图。融合过程中,使用Sigmoid函数对显著性评分进行激活,以减少显著物体周围的杂质,并突出其内部区域。

2. 实验与结果

研究在三个公开数据集(ECSSD、MSRA10K和DUT-OMRON)上对CSSP模型进行了评估,并与多种现有的显著性检测方法进行了对比。

2.1 数据集

  • ECSSD数据集:包含背景复杂的图像,对显著性检测具有较高挑战性。
  • MSRA10K数据集:包含10,000张图像,背景结构简单,通常只有一个显著物体。
  • DUT-OMRON数据集:包含5168张高质量图像,背景复杂,通常包含多个显著物体。

2.2 评估指标

使用精确率(Precision)、召回率(Recall)、F-measure和平均绝对误差(MAE)作为评估指标。

2.3 实验结果

  • ECSSD数据集:CSSP模型在精确率和F-measure上表现优异,显著优于其他对比方法。
  • MSRA10K数据集:CSSP模型的精确率略低于GBR和HS方法,但在召回率和F-measure上表现良好。
  • DUT-OMRON数据集:CSSP模型在所有指标上均优于对比方法,尤其在处理多个显著物体时表现突出。

3. 显著性检测的视觉对比

通过视觉对比实验,CSSP模型在处理图像边界接触的显著物体时表现出色,显著减少了显著物体内部的灰色斑块和周围的杂质。例如,在处理包含多个显著物体的图像时,CSSP模型能够更准确地检测出所有显著物体,而其他方法则存在漏检或误检的情况。

结论与意义

CSSP模型通过结合格式塔理论中的颜色相似性和空间邻近性,提出了一种简单但高效的显著性检测方法。实验结果表明,该模型在处理复杂背景和多个显著物体时表现出色,显著优于现有的多种方法。CSSP模型不仅能够有效检测显著物体,还能够处理与图像边界接触的显著物体,这在许多实际应用中具有重要意义。

研究亮点

  1. 创新性:CSSP模型首次将格式塔理论中的颜色相似性和空间邻近性相结合,提出了一种新的显著性检测方法。
  2. 高效性:通过引入空间邻近性权重和颜色差异的对数特性,CSSP模型在显著物体检测中表现出更高的鲁棒性。
  3. 应用价值:CSSP模型在多个公开数据集上的优异表现表明,其在图像处理、目标识别等实际应用中具有广泛的应用前景。

未来研究方向

尽管CSSP模型在显著性检测中取得了显著成果,但仍存在一些局限性。例如,在处理一组显著物体时,可能会遗漏部分显著区域。未来的研究计划将结合深度学习技术,进一步优化模型的性能,并探索其在更多实际应用中的潜力。

通过本研究,我们不仅验证了基于格式塔理论的视觉注意力建模的可行性,还为显著性检测领域提供了一种新的研究方向和方法。