視覚と言語の統合によるゼロショット人-物相互作用検出に向けて

視覚と言語の統合によるゼロショット人-物相互作用検出に向けて

視覚-言語統合に基づくゼロショット人間-物体相互作用検出研究 学術的背景 人間-物体相互作用(Human-Object Interaction, HOI)検出は、コンピュータビジョン分野における重要な研究テーマであり、画像内の人間と物体の間の相互作用を識別することを目的としています。従来のHOI検出手法は主に教師あり学習に依存しており、大量の人手によるアノテーションデータを用いてモデルを訓練する必要があります。しかし、この手法は未見の物体カテゴリに対して汎化能力が限られています。さらに、現実世界における人間-物体相互作用は多様で複雑であり、すべての可能な相互作用カテゴリを手動でアノテーションすることは時間と労力がかかります。 近年、視覚-言語モデル(Vision-Language Model...