視覚と言語の統合によるゼロショット人-物相互作用検出に向けて

視覚と言語の統合によるゼロショット人-物相互作用検出に向けて

視覚-言語統合に基づくゼロショット人間-物体相互作用検出研究 学術的背景 人間-物体相互作用(Human-Object Interaction, HOI)検出は、コンピュータビジョン分野における重要な研究テーマであり、画像内の人間と物体の間の相互作用を識別することを目的としています。従来のHOI検出手法は主に教師あり学習に依存しており、大量の人手によるアノテーションデータを用いてモデルを訓練する必要があります。しかし、この手法は未見の物体カテゴリに対して汎化能力が限られています。さらに、現実世界における人間-物体相互作用は多様で複雑であり、すべての可能な相互作用カテゴリを手動でアノテーションすることは時間と労力がかかります。 近年、視覚-言語モデル(Vision-Language Model...

カリキュラム予測を備えたメモリ支援型知識転送フレームワークを用いた弱教師ありオンライン活動検出

研究背景と研究意義 近年、ビデオ理解分野における弱教師ありオンライン活動検出(Weakly Supervised Online Activity Detection, WS-OAD)は、高度なビデオ理解の重要な課題として広く注目されています。この課題の主な目標は、安価なビデオレベルのアノテーションのみを利用して、ストリーミングビデオ内で進行中の活動をフレーム単位で検出することです。このタスクは、自動運転、公共安全監視、ロボットナビゲーション、拡張現実など、多くの実用的な応用分野で重要な価値を持っています。 完全教師あり手法(Fully Supervised Methods)はオンライン活動検出(OAD)で顕著な進展を遂げましたが、フレームレベルの密なアノテーション(Frame-level A...

代替セルフデュアル教育による弱教師ありセマンティックセグメンテーション

代替セルフデュアル教育による弱教師ありセマンティックセグメンテーション

代替二重教師自己調整学習による弱監督セマンティック画像分割実現 背景紹介 コンピュータビジョンの分野の発展に伴い、セマンティック分割はその中で重要かつ活発な研究方向の一つとなっています。従来のセマンティック分割方法は手動でラベリングされたピクセルレベルのラベルに依存していますが、これらの精密なアノテーションの取得には通常多大な人力と時間コストがかかります。この問題を解決するために、近年、弱監督セマンティック分割(Weakly Supervised Semantic Segmentation, WSSS)が提案され、これは人工アノテーションを最小限に抑えつつ、弱いアノテーション情報(画像ラベル、バウンディングボックス、塗りつぶしなど)を利用して効率的なセマンティック分割を実現することを目指して...