視覚と言語の統合によるゼロショット人-物相互作用検出に向けて

視覚と言語の統合によるゼロショット人-物相互作用検出に向けて

視覚-言語統合に基づくゼロショット人間-物体相互作用検出研究 学術的背景 人間-物体相互作用(Human-Object Interaction, HOI)検出は、コンピュータビジョン分野における重要な研究テーマであり、画像内の人間と物体の間の相互作用を識別することを目的としています。従来のHOI検出手法は主に教師あり学習に依存しており、大量の人手によるアノテーションデータを用いてモデルを訓練する必要があります。しかし、この手法は未見の物体カテゴリに対して汎化能力が限られています。さらに、現実世界における人間-物体相互作用は多様で複雑であり、すべての可能な相互作用カテゴリを手動でアノテーションすることは時間と労力がかかります。 近年、視覚-言語モデル(Vision-Language Model...

ゼロショット分布外検出のためのグローバルおよびローカル最大概念マッチング

ゼロショット分布外検出のためのグローバルおよびローカル最大概念マッチング

GL-MCM: ゼロショット分布外検出のためのグローバルとローカル最大概念マッチング 研究背景と問題提起 現実世界では、機械学習モデルが適用される環境には、新しいクラスのデータが自然に出現するなど、データ分布が変化することがよくあります。この現象は「分布外検出」(Out-of-Distribution Detection, OOD)と呼ばれています。未知のデータに対するモデルの信頼性を確保するために、OOD 検出は重要なタスクとなっています。しかし、従来の単一モーダルな教師あり学習手法は特定のタスクで良好なパフォーマンスを示しますが、そのトレーニングコストが高く、多様なアプリケーションシナリオに対応するのが難しいという欠点があります。 近年、CLIP(Contrastive Language...

汎用代理モデルを用いたサンプル選択によるラベルノイズの対処

学術的背景と問題提起 ディープニューラルネットワーク(Deep Neural Networks, DNNs)の急速な発展に伴い、視覚知能システムは画像分類、物体検出、動画理解などのタスクで顕著な進歩を遂げています。しかし、これらのブレークスルーは高品質な注釈付きデータの収集に依存しており、注釈プロセスは時間がかかり、コストがかかります。この問題に対処するため、研究者は大規模なウェブデータを活用してトレーニングを行うようになりましたが、これらのデータにはノイズラベル(label noise)が含まれることが多く、これがディープニューラルネットワークの性能に悪影響を及ぼします。ノイズラベルの存在は、トレーニングデータとテストデータの分布の不一致を引き起こし、クリーンなテストデータに対するモデルの...