TGFuse:トランスフォーマと生成対向ネットワークに基づく赤外線および可視画像融合アプローチ

TGFuse:Transformerと生成対抗ネットワークに基づく赤外線と可視光画像の融合方法

背景紹介

本研究のニューラルネットワークフレームワーク

イメージング機器と分析方法の発展に伴い、多環境ビジュアルデータが急速に出現し、多くの実際の応用を持っています。これらの応用の中で、画像融合は多環境データの情報関連を人間の目で理解するのに重要な役割を果たしています。特に赤外線と可視光画像の融合は、軍事、安全、視覚追跡などの分野で重要な応用があります。このため、画像融合任務の重要な一環となっています。自然かつ効果的な画像融合アルゴリズムを設計することができれば、全体的な画像の知覚を向上させ、複雑なシーンの融合要求に適応することができます。しかし、既存の畳み込みニューラルネットワーク(CNN)ベースの融合方法は、遠距離依存性を直接無視してしまい、画像全体のバランス感覚を妨げています。

伝統的なマルチスケール変換に基づく融合アルゴリズムは、ソース画像のマルチスケール表現を抽出し、融合と復元を行うことで、初歩的な研究成果を上げています。しかし、これらの方法は複雑なシーンの融合において能力が限られており、ノイズを引き起こしやすく、操作効率が低いです。深層学習の発展に伴い、畳み込みニューラルネットワークはその強力な表現力と柔軟な構造によって研究の主流となっています。しかし、ほとんどの画像融合タスクは教師なしのものであるため、教師ありのエンド・ツー・エンドのトレーニングフレームワークは融合タスクのトレーニングには適していません。

本研究では、Transformerモジュールと生成対抗学習に基づく赤外線と可視光画像の融合アルゴリズムを提案し、上述の問題を解決します。我々の革新的な点は、Transformer技術を通じて効果的なグローバルな融合関係を学習し、トレーニングプロセスで対抗学習を導入することで、入力から競争的一貫性を得て、出力画像の識別力を向上させることにあります。実験結果は、提案する方法が複雑なシーンにおいて優れた性能向上を示すことを証明しました。

論文の出典

この論文のタイトルは「An Infrared and Visible Image Fusion Approach Based on Transformer and Generative Adversarial Network」であり、著者は江南大学人工知能とコンピュータ科学学院に所属するDongyu Rao、Tianyang Xu、およびXiao-Jun Wuの三名の研究者です。論文は2023年のIEEE Transactions on Image Processing誌に掲載され、DOIは10.1109/TIP.2023.3273451です。

研究方法とプロセス

研究プロセス

研究は主に2つの部分に分かれています:Transformerに基づく生成器と2つの判別器(Discriminator)。生成器は融合画像を生成し、判別器は融合画像の知覚品質を精緻化するために使用されます。

  1. 生成器

    • ソース画像をチャネル次元において結合し、畳み込みニューラルネットワークを通じて初期特徴を抽出。
    • 混合されたCNN特徴をTransformer融合モジュールに入力し、グローバルな融合関係を学習。
    • ダウンサンプリング操作により計算資源の消費を減らし、学習した融合関係をアップサンプリング操作で異なるスケールに拡大し、対応する特徴と掛け合わせることで初期結果を得る。
    • 異なるスケールの融合特徴を原画像サイズにアップサンプリングし、重ね合わせて最終的な融合結果を得る。
  2. 判別器

    • 2つの判別器を設定:融合画像と赤外線画像の判別器(dis-ir)、融合画像と可視画像の判別器(dis-vis)。
    • 判別器として事前トレーニングされたVGG-16ネットワークを使用し、特徴レベルのL1損失を通じて融合画像を赤外または可視画像に近づける。
    • トレーニング段階で、ソース画像を生成器に入力し、初期融合画像を得て、2つの判別器の作用を通じて生成器にフィードバックし、損失関数を通じて対策トレーニングを行い、最終的な生成器の理想的な効果を達成。

Transformerモジュール

Transformer融合モジュールは一般的なTransformer(Spatial Transformer)とクロスチャネルTransformer(Channel Transformer)の2つの部分で構成されています。これら2つの組み合わせにより、より広範なグローバル統合関係が得られます。

  • 空間Transformer:画像をブロックに分割し、ベクトルに展開して、Transformerモデルに入力し、関係を学習。
  • チャネルTransformer:新しいクロスチャネルTransformerモデルを提案し、チャネル次元を跨いだ情報関連を学習。
  • 組み合わせTransformer:最初にチャネルTransformerを使用し、その後に空間Transformerを使用して、赤外線と可視画像の融合に適した係数を学習。

損失関数

  • 生成器の損失:SSIM(構造類似性)損失に基づいて改良され、単一の損失関数を採用して融合効果を最適化し、複数の損失関数の衝突を避ける。
  • 判別器の損失:赤外画像と融合画像の判別器損失(dis-ir)と可視画像と融合画像の判別器損失(dis-vis)が含まれ、特徴レベルでサンプリングされ、VGG-16ネットワークによって抽出された特徴でL1損失を計算。

研究結果

TNO、Road Scene、LLVIPデータセットでの実験結果は、提案する方法が複数の客観的評価指標で最優または次優の成績を収めたことを示しています。例えば、TNOデータセットでは、我々の方法が9つの評価指標のうち、5つで最優、3つで次優の成績を得ました。

主観評価

視覚比較によって、提案する方法は赤外画像の顕著な情報と低ノイズ背景情報を保持する面で優れたパフォーマンスを発揮し、他の方法と比較して生成された融合画像は人間の視覚認識に一致しています。

結論

本研究では、Transformerモジュールと生成対抗学習に基づく赤外線と可視画像融合方法を提案し、融合タスクにおいて優れたパフォーマンスを示しました。画像融合タスクに新しい研究方向を提供します。今後の研究では、融合タスクにおけるTransformerの応用をさらに探求し、それを下流タスクに応用することを試みます。

研究のハイライト

  1. 新しい融合アルゴリズムの提案:Transformerと生成対抗学習を組み合わせ、トレーニング過程で対抗学習を導入することで、画像出力の識別力を高めました。
  2. 複数モジュールの組み合わせ:空間とチャネルTransformerの組み合わせにより、より広範なグローバル融合関係を学習。
  3. 優れた実験結果:複数のデータセットで、提案された方法は複数の客観的指標で最優または次優の成績を収めました。