可視光と赤外線の人物再識別のための適応的中間モダリティ整合学習

可視光と赤外線の人物再識別のための適応的中間モダリティ整合学習

可視光と赤外線を用いたクロスモダリティ学習に基づくAdaptive Middle-Modality Alignment Learning手法の研究 研究背景と課題 スマート監視システムの需要に伴い、可視光と赤外線を利用した人物再識別(Visible-Infrared Person Re-identification, VIReID)は注目を集める研究分野となっています。本課題は、異なるスペクトルモダリティ(可視光と赤外線)に基づいた人物画像をマッチングさせ、24時間対応の人物識別を実現することを目的としています。可視光画像と赤外線画像は異なる光スペクトルから生成されるため、照明、テクスチャ、色などに大きなモダリティ差が存在し、このクロスモダリティマッチングが大きな課題となっています。 従来の...

局所アフィンコンセンサスを用いたグラフクラスタリングによる特徴マッチング

グラフクラスタリングに基づく特徴マッチングの研究:局所アフィンコンセンサスの実現と応用 学術的背景と研究動機 特徴マッチングは、コンピュータビジョン分野における基盤的な問題であり、3次元再構成、画像検索、画像登録、SLAM(Simultaneous Localization and Mapping)など、多くのタスクにおいて重要な役割を果たしています。しかし、実際の応用においては、特徴マッチングはノイズ、外れ値(アウトライア)、および様々な画像変換の影響を受け、正確な対応関係を構築することが困難です。グラフモデルに基づく現在の特徴マッチング手法は、その強力な構造表現能力により、これらの問題をある程度解決しますが、以下の課題が残されています: グラフマッチング問題は一般にNP困難であり、計算複...

手順認識に向けた弱教師あり協調手順整列フレームワークの研究

弱教師あり協調手順整列フレームワーク:手順動画の相関学習への応用と評価 近年、動画分析分野の急速な発展に伴い、指示動画はその目的指向の特性と人間の学習プロセスとの内在的な関連性により、研究者の関心を集めています。一般動画と比較して、指示動画には複数の細かな手順が含まれ、これらの手順は異なる期間と時間的配置を持ち、より複雑な手順構造を形成します。本研究では、手順動画における手順認識型の相関学習を実現するために、弱教師あり協調手順整列(Collaborative Procedure Alignment, CPA)というフレームワークを提案しました。このフレームワークの主な特長は、高価な手順レベルのアノテーションに依存せず、動画間の内部相関性を利用して手順情報を協調的に抽出し、その手順一致性を定量...

野外でSAMを用いて新しい種を検出する方法

研究論文レポート:SAM を活用したオープンワールド物体検出フレームワーク 背景 エコシステムのモニタリングがますます重要になる中、野生動植物や植物群のモニタリングは、生態系保全や農業発展の鍵となる手段となっています。このようなモニタリングには、個体数の推定、種の識別、行動研究、植物の病害や多様性の分析が含まれます。しかし、従来のクローズドワールド物体検出モデルは、単一種のラベル付きデータに基づいてトレーニングされるため、新しい種への適応が難しいという課題があります。 本研究では、データの不足やモデルの新種適応能力の制限といった課題に焦点を当て、アメリカ・イリノイ大学アーバナシャンペーン校のGarvita Allabadi、Ana Lucic、Yu-Xiong Wang、Vikram Adv...

MassiveFold:最適化および並列化された大規模サンプリングでAlphaFoldの隠れた可能性を明らかにする

MassiveFold:AlphaFoldの潜在能力を最適化と並列化で引き出す 背景と研究課題 タンパク質構造予測は生命科学において重要な研究分野であり、分子生物学の基本的なメカニズムを解明するために不可欠です。近年、DeepMindによるAlphaFoldはこの分野に革命をもたらし、単一タンパク質鎖構造の予測において卓越した性能を発揮し、タンパク質科学研究の基盤となっています。しかし、研究の進展に伴い、AlphaFoldは複雑なタンパク質複合体や抗原-抗体相互作用といった特定のケースで、計算時間が長いことやGPUリソースの高い要求といった課題に直面しています。また、予測精度を向上させるためにリサイクル回数やサンプリング密度を増やす方法もあるものの、これらはさらなる計算負担を招いています。 ...

ターゲットからソースへの引き込み:ドメイン適応型セマンティックセグメンテーションの新しい視点

ドメイン適応セマンティックセグメンテーションにおける新たな視点:T2S-DAの研究 背景と研究の重要性 セマンティックセグメンテーションは、コンピュータビジョン分野において重要な応用を持つが、その性能は大量のアノテーションデータに依存することが多い。しかし、アノテーションデータの収集は特に複雑なシーンでは非常にコストが高いため、多くの研究がアノテーション要件を軽減するために合成データの利用に注目している。しかし、ドメイン間のギャップ(domain gap)の存在により、合成データで学習されたモデルが現実のシナリオに一般化するのは難しい。このような状況で、無教師ドメイン適応(Unsupervised Domain Adaptation, UDA)手法がこの問題を解決するための効果的なアプローチ...

3D生成敵対ネットワークにおけるワンショット生成ドメイン適応

One-shot Generative Domain Adaptation in 3D GANs 近年、生成対抗ネットワーク(Generative Adversarial Networks, GANs)は、画像生成分野で顕著な進歩を遂げました。従来の2D生成モデルは、多くのタスクで極めて高い能力を発揮しています。しかし、この技術を3次元(3D-aware image generation)の分野に拡張し、2D画像を生成しながら3D構造を同時に学習することは、依然として多くの課題に直面しています。本稿は、International Journal of Computer Vision に掲載された、Ziqiang Li、Yi Wu、Chaoyue Wangらの研究「One-shot Gener...

CNNにおける帰属マップの信頼性評価:摂動ベースのアプローチ

深層学習の解釈可能性研究:摂動に基づく帰属マップ評価手法 背景と研究動機 深層学習モデルは多くのタスクで顕著な成功を収めていますが、これらのモデルの解釈可能性と透明性への関心が高まっています。特に、モデルの高精度な予測と同時に、その意思決定プロセスを人間が直感的に理解できるようにする能力が不足しています。この欠如は、多くの実世界のアプリケーションにおけるモデルの採用を制限しています。 コンピュータビジョン分野では、帰属法(Attribution Methods)が神経ネットワークの解釈可能性研究に広く利用されています。これらの方法は、入力画像中のどの領域がモデルの意思決定に最も寄与しているかを示す帰属マップ(Attribution Maps、AMs)を生成します。しかし、帰属マップの定性的性...

画像分類のためのクロススケール共起局所二値パターン

クロススケール共起局所バイナリパターンを用いた画像分類法の研究 画像分類技術はコンピュータビジョン分野で重要な位置を占めており、画像特徴抽出はこの分野の核心的研究対象です。近年、局所バイナリパターン(Local Binary Pattern, LBP)は、その効率性と優れた記述能力により、テクスチャ分類や顔認識などの視覚タスクで広く利用されています。しかし、従来のLBP手法は幾何変換(回転やスケーリング)や画像ノイズに対して制約があり、その記述能力が劣化しやすいという課題がありました。これらの課題に対処するため、重慶郵電大学の肖斌らの研究チームは、学術誌「International Journal of Computer Vision」に「CS-COLBP: Cross-Scale Co-O...

StyleGANを用いた画像編集のための残差変形

GAN反転と画像編集の新手法:StyleGANを用いたWarping the Residualsによる画像編集 背景と研究課題 生成的敵対ネットワーク(Generative Adversarial Networks, GAN)は、画像生成分野で著しい進展を遂げ、高品質な画像の生成および編集を可能にしました。特に、StyleGANモデルは、その意味的に解釈可能な潜在空間構造を活用し、従来の画像翻訳手法を超える編集能力を示しています。しかし、GANの実用化において直面する主要な課題は、実画像を編集する際に、画像をGANの潜在空間(GAN反転)に正確に投影し、入力画像を高忠実度で再構築しつつ、高品質な編集を実現することです。 既存の手法では、低ビットレートの潜在空間(例:StyleGANの$W^+...