二段階のカテゴリ整合に基づく教師なしドメイン適応セグメンテーションアルゴリズム

语義セグメンテーションは画像内の各ピクセルに対してクラスラベルを予測することを目的としており(Liu et al., 2021; Wang et al., 2021)、シーンの理解、医療画像解析、自動運転、地理情報システム、拡張現実などに広く応用されています(Strudel et al., 2021; Sun et al., 2023)。深層神経ネットワークの発展により、セグメンテーションタスクの性能が大幅に向上しましたが(Chen et al., 2014; Guan et al., 2021; Zhao et al., 2017)、これらの進歩はモデルの訓練に大量のピクセルレベルのアノテーションデータを必要とし、これらのデータの取得は現実の場面では高コストです(Jiang et al., 2022; Liang et al., 2023)。同時に、テストデータと訓練データの分布が異なる場合、多くのセグメンテーション手法の性能が低下することがよくあります(Huang et al., 2022)。これらの問題を解決するために、研究者たちはモデルの一般化能力を向上させるために無監督領域適応(Unsupervised Domain Adaptation, UDA)手法を提案しました(Xu et al., 2021)。

論文の出典

本論文のタイトルは「Unsupervised Domain Adaptive Segmentation Algorithm Based on Two-Level Category Alignment」であり、武漢大学コンピュータ学院のDong Wenyongおよびそのチーム(Liang Zhixue、Wang Liping、Tian Gang、Long Qianhui)により執筆されました。本論文は2024年に「Neural Networks」誌に掲載され、論文番号は106399です。

図1

研究背景と問題

現在、ほとんどの無監督領域適応セグメンテーション手法はピクセルレベルの局所的な特徴に焦点を当てていますが、クラス情報の手がかりを見逃しています。これにより、セグメンテーションネットワークは全体のクロスドメインの不変特徴を学習することはできても、細粒度のクロスドメインの不変特徴を見逃してしまい、セグメンテーション性能が低下します。この問題に対処するために、本論文は二段階のカテゴリ調整に基づく無監督領域適応アルゴリズム(UDA$_{CA}^+$)を提案し、セマンティックセグメンテーションタスクに応用しています。

研究フローと方法

全体的なアーキテクチャ

UDA$_{CA}^+$のアーキテクチャは図1に示されており、主にClassMixモジュール、学生ネットワークと教師ネットワーク、画像レベルとピクセルレベルのカテゴリ調整モジュールから成ります。ネットワークは3つのブランチを含みます:ターゲットドメインブランチ($B_t$)、ソースドメインブランチ($B_s$)、および混合ドメインブランチ($B_m$)。

研究対象と処理ステップ

  1. ソースドメインとターゲットドメインデータセット

    • ソースドメインデータセット:合成環境の日中シーン画像から。
    • ターゲットドメインデータセット:実際の環境の対応するシーン画像から、GTAおよびCityscapesデータセットを含む。
    • 処理:すべてのデータはサイズスケーリング、ランダムクロップ、ランダム水平フリップ、およびRGB平均標準化などの前処理操作を受けました。
  2. ソースドメインモデルの訓練

    • 入力:ソースドメイン画像$x_s$。
    • 出力:セマンティックセグメンテーションの学生ネットワーク$g_{\theta}$を通して予測$y_s$を取得。
    • 損失:標準クロスエントロピー損失を使用して学生ネットワークを制約。
  3. ターゲットドメインモデルの訓練

    • 入力:ターゲットドメイン画像$x_t$。
    • 出力:教師ネットワーク$h_{\phi}$を通して予測$y_t$を取得し、さらに擬似ラベルを生成。
    • 擬似ラベル:最大確率値でクラスを決定し、さらに負の転送と過度の調整問題を軽減するために信頼度計算方法を導入。

二段階のカテゴリ調整戦略

  1. 画像レベルカテゴリ調整(IDA):クラス活性化マップ(Class Activation Map, CAM)に基づき、場所、分布、特徴中心などのクラスの深層情報に焦点を当てます。
  2. ピクセルレベルカテゴリ調整(PDA):擬似ラベルに基づき、テクスチャ、色、局所的コンテキストなどのクラスの浅層情報を重視します。

競合学習戦略

  • 特徴空間競合学習:特徴空間において、競合学習によりソースドメインとターゲットドメインのクラス特徴中心を調整し、異なるクラスの特徴分布のバランスを取ります。
  • 出力空間競合学習:出力空間において、さらにクラスの空間分布マップを調整し、全体と局所情報の整合を実現します。

混合ドメイン戦略

  1. 画像混合戦略:ClassMixメソッドを使用して混合画像$x_m$およびそのラベル$y_m$を生成し、競合学習と自己学習によりUDAセグメンテーションモデルを共同で最適化します。
  2. 統合調整戦略:混合ドメインブランチはIDAおよびPDAモジュールを通じて特徴空間と出力空間で競合学習を行い、UDAセグメンテーションモデルを最適化します。

結果と分析

定量的実験結果

GTA→CityscapesおよびSynthia→Cityscapesの2つのデータセットにおける実験結果は、UDA${CA}^+$がセグメンテーション性能を有意に向上させ、以前のSOTA手法を上回ることを示しました。具体的には: - GTA→Cityscapesタスクにおいて、UDA${CA}^+$は69.7%のmiouを実現し、ベースラインモデルのSegformerに対して21.4%の向上を達成しました。 - Synthia→Cityscapesタスクにおいて、UDA$_{CA}^+$は16カテゴリー(miou16)および13カテゴリー(miou13)のパフォーマンスでそれぞれ20.3%および21.1%の向上を見せました。

質的実験結果

図6のように、UDA$_{CA}^+$は複数のシーンコンテンツの予測パフォーマンスでSOTA手法(例:Daformer)よりも優れた結果を示し、特に草地、樹木、歩道、建物、壁の予測において顕著な向上が見られました。

アブレーション実験

研究はまた、二段階カテゴリ調整モジュールおよび競合学習モジュールの影響を調査する詳細なアブレーション実験を行いました。結果は以下の通りです: - 画像レベルおよびピクセルレベルのカテゴリ調整モジュールを組み合わせることで、アルゴリズムのパフォーマンスがいずれか単独のモジュールを追加するよりも明確に向上することが示されました。 - 特徴空間と出力空間の統合競合学習は、セグメンテーションネットワークのドメイン間の不変性の捕捉能力をさらに向上させました。

研究の結論

本論文で提案されたUDAセグメンテーションアルゴリズムは、特徴空間と出力空間における二段階のカテゴリ調整戦略により、ソースドメインとターゲットドメイン間のドメインシフト問題をうまく緩和しました。実験結果は提案された戦略の有効性を確認し、2つの合成から実世界への適応タスクにおいてSOTA性能を達成しました。将来の研究では、クラス活性化マップの生成をさらに最適化し、モデルの性能を向上させることが考えられます。