TGFuse:基于Transformer和生成对抗网络的红外与可见光图像融合方法

TGFuse:基于Transformer和生成对抗网络的红外与可见光图像融合方法

背景介绍

本研究的神经网络框架

随着成像设备和分析方法的发展,多模态视觉数据迅速涌现,具有许多实际应用。在这些应用中,图像融合在帮助人眼感知多模态数据的信息关联中起到了重要作用。尤其是红外和可见光图像的融合,在军事、安全和视觉追踪等领域具有重要应用,成为图像融合任务的重要一环。设计一个自然且高效的图像融合算法,能够提升整图级别的感知,从而适应复杂场景的融合需求。然而,现有基于卷积神经网络(CNN)的融合方法直接忽略了远程依赖性,这妨碍了对整幅图像的平衡感知。

传统的多尺度变换基础上的融合算法,通过提取源图像的多尺度表示并进行融合和还原,获得了初步的研究成果。然而,这些方法在复杂场景的融合方面能力有限,且容易引入噪声,操作效率低。随着深度学习的发展,卷积神经网络凭借其强大的表示能力和灵活的结构,已成为研究的主流。然而,由于大多数图像融合任务是无监督的,监督的端到端训练框架并不适用于融合任务的训练。

本文提出了一种基于Transformer模块和生成对抗学习的红外和可见图像融合算法,以解决上述问题。我们的创新点体现在通过Transformer技术学习有效的全局融合关系,以及在训练过程中引入对抗学习,从输入中获取竞争一致性,提高输出图像的判别力。实验结果表明,所提出的方法在复杂场景下具有较好的性能提升。

论文来源

这篇论文的题目是”An Infrared and Visible Image Fusion Approach Based on Transformer and Generative Adversarial Network”,由Dongyu Rao、Tianyang Xu和Xiao-Jun Wu三位研究人员撰写,均隶属于江南大学人工智能与计算机科学学院。论文发表在2023年的IEEE Transactions on Image Processing期刊,DOI是10.1109/TIP.2023.3273451。

研究方法与流程

研究流程

研究主要分为两个部分:基于Transformer的生成器和两个判别器(Discriminator)。生成器负责生成融合图像,而判别器则用于细化融合图像的感知质量。

  1. 生成器

    • 来源图像合并为通道维度后,通过卷积神经网络进行初始特征提取。
    • 将混合的CNN特征输入到Transformer融合模块,学习全局的融合关系。
    • 通过下采样操作减少计算资源消耗,学到的融合关系通过上采样操作放大到不同尺度,并与相应特征相乘,得到初步结果。
    • 不同尺度的融合特征上采样到原图大小并叠加,得到最终的融合结果。
  2. 判别器

    • 设置两个判别器:融合图像和红外图像判别器(dis-ir),融合图像和可见图像判别器(dis-vis)。
    • 使用预训练的VGG-16网络作为判别器,通过特征级别的L1损失,使融合图像更接近红外或可见图像。
    • 在训练阶段,来源图像输入生成器获得初步融合图像,初步融合图像通过两个判别器的作用反馈至生成器,通过损失函数进行对策训练,最终实现生成器的理想效果。

Transformer模块

Transformer融合模块由两部分组成:一般Transformer(Spatial Transformer)和跨通道Transformer(Channel Transformer)。这两者组合有助于获取更全面的全局整合关系。

  • 空间Transformer:将图像划分为块并展平为向量,再输入到Transformer模型进行关系学习。
  • 通道Transformer:提出新的跨通道Transformer模型,学习跨通道维度的信息关联。
  • 组合Transformer:通过先使用通道Transformer,再使用空间Transformer,学到更适合红外和可见图像融合的系数。

损失函数

  • 生成器损失:基于SSIM(结构相似性)损失进行改进,采用单一损失函数优化融合效果,避免多重损失函数冲突。
  • 判别器损失:包括红外图像和融合图像判别器损失(dis-ir)和可见图像和融合图像判别器损失(dis-vis),均在特征级别采样,通过VGG-16网络提取的特征进行L1损失计算。

研究结果

在TNO、Road Scene和LLVIP数据集上的实验结果表明,所提出的方法在多个客观评价指标上取得了最优或次优成绩。例如,在TNO数据集上,我们的方法在9个评价指标中,5个取得最优,3个取得次优。

主观评价

通过视觉比较,所提出的方法在保持红外图像显著信息和低噪背景信息方面表现出色,相比其他方法,生成的融合图像更符合人眼视觉感知。

结论

本文提出了一种基于Transformer模块和生成对抗学习的红外和可见图像融合方法,该方法在融合任务中表现出优秀的性能,为图像融合任务提供了全新的探索方向。未来的研究将进一步探索Transformer在融合任务中的应用,并尝试将其应用于下游任务。

研究亮点

  1. 提出新的融合算法:结合Transformer和生成对抗学习,在训练过程中引入对抗学习,提高图像输出的判别力。
  2. 多模块组合:通过空间和通道Transformer的组合,学习到更全面的全局融合关系。
  3. 优异的实验结果:在多个数据集上,所提出的方法在多个客观指标上取得了最优或次优成绩。