低照度RGB-Tシーンにおける空間周波数手がかりによる顕著なオブジェクト検出
空間-周波数手がかりの発掘方法による低照度RGB-Tシーンにおける顕著な目標検出
顕著な目標検出(Salient Object Detection, SOD)はコンピュータビジョンの分野で重要な位置を占めており、その主な任務は画像中で最も視覚的に魅力的な領域や物体を識別することです。この数十年で、SODモデルは正常な照明環境下である程度の進展を見せましたが、低光環境下では依然として厳しい課題に直面しています。低光環境下では、フォトンの不足により画像の詳細が欠落し、SODの性能が著しく影響を受けるためです。この課題は特に、インテリジェント監視や自動運転などの実際の応用において際立っています。
近年、RGB-T(可視光と熱赤外画像)システムは低光条件下で熱赤外の不変性という特性ゆえに、ますます多くの研究者の関心を引いています。RGB-T画像を利用して、研究者は可視光と熱赤外の手がかりを融合することで、ある程度低光環境下での目標検出問題を緩和するSODモデルを開発してきました。しかし、これらの既存モデルは主に空間的な特徴の融合に注目しており、周波数の違いに関する情報を無視しています。これに対処するために、中外合作の研究チームは新しいSODモデル——SFMNetを提案し、空間-周波数の手がかりを発掘することで低光環境下でのSOD性能を向上させました。
文章来源及作者信息
本研究は天津大学電気情報工学学院のHuihui Yue、Jichang Guo、Xiangjun Yin、Yi Zhang、およびSida Zhengとの共同研究であり、彼らはそれぞれコンピュータビジョン、パターン認識、およびディープラーニングに関連する分野で活躍しています。この論文はNeural Networksジャーナルの2024年号に掲載予定です。論文はそれぞれ2023年4月27日、2024年1月26日、および2024年5月21日に受理、修正および受け入れされました。
研究背景和问题
既存のRGB-T SODモデルは、空間的特徴の融合に制約されており、周波数ドメインの情報を十分に活用できていません。研究によると、周波数ドメインの特徴をキャプチャすることで、オブジェクトの分布に関する有効な情報を保持できます。これらの問題を考慮して、研究チームは新しいモデルを提案し、空間周波数の手がかりを発掘してSOD性能を改善しました。
研究流程
空間-周波数特徴探索モジュール(SFFE)
空間および周波数の手がかりを同時に取得するために、研究者はSFFEモジュールを設計しました。このモジュールはRGBおよび熱赤外画像から空間および周波数の特徴を分離し、高周波および低周波の手がかりを適応的に選択します。具体的には、周波数のデカップリングおよび適応動的特徴選択戦略を通じて、高周波および低周波情報の分離および選択を行います。
周波数デカップリング
- 研究チームはまず離散コサイン変換(Discrete Cosine Transform, DCT)を使用して周波数ドメインの結果を抽出し、特性マップからしきい値関数を通じて高周波および低周波情報を抽出します。
適応動的特徴選択
- 必要に応じて最も有利な高周波および低周波情報を選択し、チャネルおよび空間注意機構(Channel-Spatial Attention, CSA)を通じて補助特徴を強化し、段階的に融合して最終的な周波数ドメインの特徴を生成します。
空間-周波数特徴交互モジュール(SFFI)
SFFIモジュールの目的は、RGBおよび熱赤外画像の空間-周波数情報を融合し、クロスモーダルおよびクロスドメインの情報統合を通じて、段階的に正確な顕著性予測を生成することです。
ハイブリッドモーダルデュアルフェーズ
- 空間および周波数ドメインの多モーダル入力の特徴融合を行い、多スケール融合および多グループ融合を含みます。同スケールの多モーダル特徴をすべてのチャネルで畳み込みカーネルを通じて特徴融合し、最後に自適応融合によって最終結果を得ます。
マルチドメイン融合フェーズ
- 各レベルの特徴で空間ドメインおよび周波数ドメインの情報を融合し、多ドメイン情報を十分にキャプチャし、前レベルの特徴および前景と背景特徴を融合して最終出力を生成します。
実験結果
この新しいモデルを検証するため、研究チームは最初の低光RGB-TシーンのSODデータセットを構築し、広範な実験を行いました。実験結果は、SFMNetが低光環境下での検出精度が既存モデルよりも著しく優れていることを示しています。具体的には、異なるデータセットで、SFMNetは複数の評価指標(最大Fβ値や平均絶対誤差など)で最高の精度を達成しました。
定量評価
- 既存の13種類の最先端SOD方法と比較して、SFMNetはPR曲線、最大Fβ値、E-measure、構造類似度および平均絶対誤差の五つの指標で優れた性能を示しました。
定性評価
- 複雑な背景、大小の物体、エッジの乱れがある低光環境において、SFMNetはより強力な目標検出能力を示し、顕著性予測がより正確かつ完全でした。
複雑性分析
- SFMNetは中程度のパラメータ量でありながら、計算複雑性において優れた効率を示しました。
貢献とハイライト
革新的なモデル
- 新しいRGB-T SODモデルSFMNetを提案し、空間-周波数の手がかりを発掘することで、低光環境下での高精度目標検出を実現しました。
新しいモジュール設計
- SFFEおよびSFFIモジュールを設計し、それぞれ空間-周波数特徴の発掘とクロスドメイン情報の融合に使用しました。
新データセット
- 最初の低光RGB-T SODデータセットを構築し、関連研究に基準を提供しました。
結論
本研究は、低光条件下での顕著目標検出を向上させるための新しい視点と方法を提案し、周波数の手がかりと適応動的特徴選択などの革新的な点を導入することで、検出性能を大幅に向上させました。SFMNetは科学研究において重要な価値を持つだけでなく、インテリジェント監視や災害予防などの産業応用にも有効なサポートを提供します。将来の研究は、極端に複雑なシーンでのモデルのパフォーマンスをさらに最適化し、そのロバスト性と実用性を強化する方向に進むことが期待されます。
本研究は顕著な目標検出の分野に新しい視点とブレークスルーを提供し、将来的にさらに多くの研究と応用が恩恵を受けることを期待しています。