通过空间-频率线索挖掘方法实现低光照RGB-T场景中的显著目标检测
通过空间-频率线索挖掘方法实现低光照RGB-T场景中的显著目标检测
显著目标检测(Salient Object Detection, SOD)在计算机视觉领域具有重要地位,其主要任务是在图像中识别出最具视觉吸引力的区域或物体。尽管在过去几十年中,SOD模型在正常光照环境中取得了一定进展,但在低光环境下仍面临严峻挑战。在低光环境下,由于光子不足,导致图像细节缺失,严重影响了SOD的性能。而这种挑战在智能监控、自动驾驶等实际应用中显得尤为突出。
近几年来,RGB-T(可见光和热红外图像)系统因其在光线不足条件下对热红外不变性的特点,引起了越来越多研究人员的关注。借助RGB-T图像,研究人员开发了一些SOD模型,通过融合可见光和热红外线索,在一定程度上缓解了低光环境下的目标检测问题。然而,这些现有模型大多仅关注于空间特征的融合,忽略了频率差异的信息。为应对这一问题,中外合作的研究团队提出了一种新型SOD模型——SFMNet,通过挖掘空间-频率线索,提高了低光环境下的SOD性能。
文章来源及作者信息
本文是由天津大学电气与信息工程学院的Huihui Yue, Jichang Guo, Xiangjun Yin, Yi Zhang, 和Sida Zheng合作完成,他们分别活跃在计算机视觉、模式识别及深度学习的相关领域。这篇论文将发表在Neural Networks期刊的2024年期刊上。该论文分别于2023年4月27日、2024年1月26日和2024年5月21日收稿、修订和接受。
研究背景和问题
现有的RGB-T SOD模型在低光环境下的性能受到空间特征融合的限制,未能充分利用到频率域的信息。根据研究,捕捉频率域的特征可以保留对象分布的有效信息。因此,考虑到这些不足,研究团队提出了一种新模型,通过挖掘空间频率线索来改进SOD的性能。
研究流程
空间-频率特征探索模块(SFFE)
为了同时获取空间和频率线索,研究人员设计了SFFE模块,通过SFFE模块分别从RGB和热红外图像中分离出空间和频率特征,并适应性地选择高频和低频线索。具体来说,通过频率解耦和适应性动态特征选择策略,将高频和低频信息分离和选择。
频率解耦
- 研究团队首先通过离散余弦变换(Discrete Cosine Transform, DCT)提取频率域结果,再通过阈值函数从特征图中提取高频和低频信息。
适应性动态特征选择
- 根据需要选择最有利的高频和低频信息,通过信道和空间注意力机制(Channel-Spatial Attention, CSA)增强辅助特征,并通过逐步融合的方式生成最终的频率域特征。
空间-频率特征交互模块(SFFI)
SFFI模块旨在融合RGB和热红外图像的空间-频率信息,通过交叉模态和跨域的信息整合,逐步生成准确的显著性预测。
混合模态双重相位
- 将空间和频率域的多模态输入进行特征融合,包括多尺度融合和多组融合。在所有通道中同尺度的多模态特征通过卷积核进行特征融合,再通过自适应融合得到最终结果。
多域融合相位
- 将每一级特征融合空间域和频率域的信息,充分捕捉多域信息,并通过融合前一级特征以及前景和背景特征生成最终输出。
实验结果
为了验证新模型,研究团队构建了第一个低光RGB-T场景中的SOD数据集,并进行了广泛的实验。实验结果表明,SFMNet在低光环境下的检测精度显著优于现有模型。具体来说,在不同的数据集上,SFMNet在多个评估指标(如最大Fβ值和平均绝对误差等)上取得了最高的精度。
定量评估
- 通过对现有13种前沿SOD方法进行比较,SFMNet在PR曲线、最大Fβ值、E-measure、结构相似度和平均绝对误差五个指标上表现优异。
定性评估
- 在多种复杂背景、大小物体、边缘杂乱的低光环境下,SFMNet显示了更强的目标检测能力,显著性预测更为准确、完整。
复杂性分析
- 尽管SFMNet参数量仅居中等,但在计算复杂性上表现突出,具有较高的计算效率。
贡献和亮点
创新模型
- 提出了一种新型的RGB-T SOD模型SFMNet,通过挖掘空间-频率线索,实现了在低光环境下的高精度目标检测。
新模块设计
- 设计了SFFE和SFFI模块,分别用于挖掘空间-频率特征和跨域信息的融合。
新数据集
- 构建了第一个低光RGB-T SOD数据集,为相关研究提供了基准。
结论
该研究为在低光条件下提升显著目标检测提供了新的思路和方法,通过引入频率线索和自适应动态特征选择等创新点,显著提高了检测性能。SFMNet不仅在科学研究中具有重要价值,更可为工业应用中的智能监控、防灾减灾等领域提供有效支持。未来的研究方向可以进一步优化模型在极端复杂场景下的表现,增强其鲁棒性和实用性。
该研究为显著目标检测领域提供了新的视角和突破,期待未来能有更多的研究和应用从中获益。