音声-視覚ゼロショット学習のための意味的一貫性の学習
学術的背景 人工知能の分野において、ゼロショット学習(Zero-Shot Learning, ZSL)は非常に挑戦的なタスクであり、その目標は既に見たカテゴリの知識を用いて未見のカテゴリのサンプルを識別することです。音声-視覚ゼロショット学習(Audio-Visual Zero-Shot Learning, AVZSL)はゼロショット学習の一分野として、音声と視覚情報を組み合わせることで未見のカテゴリを分類することを目指しています。しかし、既存の多くの手法は強力な表現の学習に焦点を当てすぎており、音声と視覚の間の意味的な一貫性やデータ自体の階層構造を見落としています。この見落としは、モデルがテスト時に未見のカテゴリを効果的に分類できない原因となり、実際の応用におけるパフォーマンスを制限する可...