自适应中间模态对齐学习用于可见光-红外人体重识别

2024-11-24 Sun
基于可见光和红外跨模态学习的Adaptive Middle-Modality Alignment Learning方法研究研究背景与问题在智能监控系统的需求推动下，可见光-红外行人再识别（Visible-Infrared Person Re-identification, VIReID）正逐渐成为一个备受关注的研究领域。该任务旨在通过对不同光谱模态（如可见光与红外）的行人图像进行匹配，实现全天候行人识别。由于可见光和红外图像源自不同的光谱，存在显著的模态差异，包括光照、纹理、颜色等，这使得跨模态匹配成为一大挑战。
传统方法多通过设计复杂的生成对抗网络（Generative Adversarial Networks, GANs）或深度网络模型来缩小模态差异，但这些方法通常存在如下问题：
- 对不同图像的模态差异变化缺乏适应性。
- 生成的图像和真实图像间存在较大差异。
- 方法复杂度较高，难以推广应用。
为解决上述问题，本文提出了一种自适应中间模态对齐学习（Adaptive Middle-Modality Alignment Learning, AMML）方法，通过在图像和特征层面生成和对齐中间模态，实现模态差异的动态缩减，进而显著提高VIReID任务的性能。
研究来源与发表信息本文由张宇康、严艳、陆洋和王汉子等学者完成，他们分别隶属于厦门大学的多媒体可信感知与高效计算教育部重点实验室及福建省智慧城市感知与计算重点实验室。文章于2024年发表在 International Journal of Computer Vision 上，论文标题为“Adaptive Middle-Modality Alignment Learning for Visible-Infrared Person Re-identification”，DOI为10.1007/s11263-024-02276-4。
研究方法与流程1. 总体框架AMML方法的核心包括三大模块：
1. 自适应中间模态生成器（Adaptive Middle-Modality Generator, AMG）：在图像层面生成中间模态图像，从而在可见光和红外图像之间构建统一的中间模态图像空间。
2. 自适应分布对齐损失（Adaptive Distribution Alignment, ADA）：在特征层面强制对齐可见光、红外特征与中间模态特征的分布。
3. 基于中心的多样分布学习损失（Center-Based Diverse Distribution Learning, CDDL）：在三模态特征之间进行多样化分布学习，同时进一步减少模态差异。
整个框架基于ResNet50模型，采用端到端的学习方式，将以上模块整合为一个轻量高效的网络。
2. 自适应中间模态生成器（AMG）AMG模块通过以下步骤实现中间模态图像生成：
- 使用一组1×1卷积层将可见光和红外图像分别投影至单通道灰度图空间。
- 对单通道灰度图进行非线性变换，以更接近于统一模态。
- 将变换后的灰度图通过参数共享的卷积操作重建为三通道中间模态图像（UMMI）。
此外，AMG模块还提出了一种自适应MixUp策略，通过融合模态因子动态调整生成的中间模态图像，从而提升模态对齐效果。
3. 自适应分布对齐损失（ADA）在特征层面，AMML通过自适应分布对齐损失来动态减少模态差异。ADA损失根据模态因子调整可见光特征和红外特征与中间模态特征之间的分布距离。公式如下：
$$
L{\text{ADA}} = \frac{1}{N} \sum{i=1}^N \left[ mv \cdot |f{vis} - f_{m}| + mn \cdot |f{nir} - f_{m}| \right]
$$
其中，$m_v$ 和 $m_n$ 分别为模态因子，用于衡量各自模态与中间模态的差异。
4. 基于中心的多样分布学习损失（CDDL）CDDL损失通过以下两种方式学习模态间的多样化特征分布：
- 正样本约束：拉近同一身份在不同模态下的特征中心之间的距离。
- 负样本分离：推远不同身份的特征中心距离。
公式如下：
$$
L{\text{CDDL}} = \sum{i=1}^N \left[ \max(0, \alpha + d(c{v}, c{n}) - d(c{v}, c{m})) + \max(0, \alpha + d(c{n}, c{v}) - d(c{n}, c{m})) \right]
$$
5. 多损失联合优化综合以上模块，AMML在训练过程中同时优化以下损失函数：
$$
L{\text{total}} = L{\text{global}} + \lambda1 L{\text{local}}
$$
其中全局和局部损失分别整合了交叉熵损失、三元组损失、ADA损失和CDDL损失。
实验与结果数据集与评价指标本文在三个公开数据集上进行了验证：
- SYSU-MM01：含491名身份、六个摄像头拍摄的可见光和红外图像。
- RegDB：含412名身份的可见光和红外图像对。
- LLCM：一个夜间低光条件下的行人数据集。
评价指标包括累积匹配特性（CMC）曲线和平均精度均值（mAP）。
主要结果AMML在所有数据集上的性能显著优于当前最先进方法。例如：
- 在SYSU-MM01的全搜索模式下，Rank-1准确率达到 77.8%，mAP为 74.8%。
- 在RegDB的可见光到红外模式下，Rank-1准确率达到 94.9%，mAP为 87.8%。
此外，相较于复杂的多分支模型（如MRCN）和需要额外预训练模型的SEFEL，AMML展现出良好的简洁性和泛化性。
研究价值与意义科学价值：本文提出的AMML框架在跨模态学习中实现了轻量高效的模态对齐，提供了一种新颖的图像-特征联合优化策略。
应用价值：该方法在智能监控系统中具有重要应用潜力，特别是在全天候、多场景下的行人再识别任务中。
总结AMML以中间模态为核心，通过在图像和特征层面动态减少模态差异，为可见光-红外行人再识别提供了新思路。未来的工作可以尝试将AMML扩展至其他跨模态任务，如多光谱成像分析与多模态语义理解。