通过空间-频率线索挖掘方法实现低光照RGB-T场景中的显著目标检测

2024-05-31 Fri
通过空间-频率线索挖掘方法实现低光照RGB-T场景中的显著目标检测显著目标检测（Salient Object Detection, SOD）在计算机视觉领域具有重要地位，其主要任务是在图像中识别出最具视觉吸引力的区域或物体。尽管在过去几十年中，SOD模型在正常光照环境中取得了一定进展，但在低光环境下仍面临严峻挑战。在低光环境下，由于光子不足，导致图像细节缺失，严重影响了SOD的性能。而这种挑战在智能监控、自动驾驶等实际应用中显得尤为突出。
近几年来，RGB-T（可见光和热红外图像）系统因其在光线不足条件下对热红外不变性的特点，引起了越来越多研究人员的关注。借助RGB-T图像，研究人员开发了一些SOD模型，通过融合可见光和热红外线索，在一定程度上缓解了低光环境下的目标检测问题。然而，这些现有模型大多仅关注于空间特征的融合，忽略了频率差异的信息。为应对这一问题，中外合作的研究团队提出了一种新型SOD模型——SFMNet，通过挖掘空间-频率线索，提高了低光环境下的SOD性能。
文章来源及作者信息本文是由天津大学电气与信息工程学院的Huihui Yue, Jichang Guo, Xiangjun Yin, Yi Zhang, 和Sida Zheng合作完成，他们分别活跃在计算机视觉、模式识别及深度学习的相关领域。这篇论文将发表在Neural Networks期刊的2024年期刊上。该论文分别于2023年4月27日、2024年1月26日和2024年5月21日收稿、修订和接受。
研究背景和问题现有的RGB-T SOD模型在低光环境下的性能受到空间特征融合的限制，未能充分利用到频率域的信息。根据研究，捕捉频率域的特征可以保留对象分布的有效信息。因此，考虑到这些不足，研究团队提出了一种新模型，通过挖掘空间频率线索来改进SOD的性能。
研究流程空间-频率特征探索模块（SFFE）为了同时获取空间和频率线索，研究人员设计了SFFE模块，通过SFFE模块分别从RGB和热红外图像中分离出空间和频率特征，并适应性地选择高频和低频线索。具体来说，通过频率解耦和适应性动态特征选择策略，将高频和低频信息分离和选择。
频率解耦
研究团队首先通过离散余弦变换（Discrete Cosine Transform, DCT）提取频率域结果，再通过阈值函数从特征图中提取高频和低频信息。
适应性动态特征选择
根据需要选择最有利的高频和低频信息，通过信道和空间注意力机制（Channel-Spatial Attention, CSA）增强辅助特征，并通过逐步融合的方式生成最终的频率域特征。
空间-频率特征交互模块（SFFI）SFFI模块旨在融合RGB和热红外图像的空间-频率信息，通过交叉模态和跨域的信息整合，逐步生成准确的显著性预测。
混合模态双重相位
将空间和频率域的多模态输入进行特征融合，包括多尺度融合和多组融合。在所有通道中同尺度的多模态特征通过卷积核进行特征融合，再通过自适应融合得到最终结果。
多域融合相位
将每一级特征融合空间域和频率域的信息，充分捕捉多域信息，并通过融合前一级特征以及前景和背景特征生成最终输出。
实验结果为了验证新模型，研究团队构建了第一个低光RGB-T场景中的SOD数据集，并进行了广泛的实验。实验结果表明，SFMNet在低光环境下的检测精度显著优于现有模型。具体来说，在不同的数据集上，SFMNet在多个评估指标（如最大Fβ值和平均绝对误差等）上取得了最高的精度。
定量评估
通过对现有13种前沿SOD方法进行比较，SFMNet在PR曲线、最大Fβ值、E-measure、结构相似度和平均绝对误差五个指标上表现优异。
定性评估
在多种复杂背景、大小物体、边缘杂乱的低光环境下，SFMNet显示了更强的目标检测能力，显著性预测更为准确、完整。
复杂性分析
尽管SFMNet参数量仅居中等，但在计算复杂性上表现突出，具有较高的计算效率。
贡献和亮点创新模型
提出了一种新型的RGB-T SOD模型SFMNet，通过挖掘空间-频率线索，实现了在低光环境下的高精度目标检测。
新模块设计
设计了SFFE和SFFI模块，分别用于挖掘空间-频率特征和跨域信息的融合。
新数据集
构建了第一个低光RGB-T SOD数据集，为相关研究提供了基准。
结论该研究为在低光条件下提升显著目标检测提供了新的思路和方法，通过引入频率线索和自适应动态特征选择等创新点，显著提高了检测性能。SFMNet不仅在科学研究中具有重要价值，更可为工业应用中的智能监控、防灾减灾等领域提供有效支持。未来的研究方向可以进一步优化模型在极端复杂场景下的表现，增强其鲁棒性和实用性。
该研究为显著目标检测领域提供了新的视角和突破，期待未来能有更多的研究和应用从中获益。