豊富な帰納バイアスを用いた視覚言語モデルの学習

豊富な帰納的バイアスを用いた視覚と言語モデルの学習 研究背景と問題提起 近年、視覚と言語モデル(Vision-Language Models, VLMs)は、コンピュータビジョンおよび自然言語処理の分野で顕著な進展を遂げています。これらのモデルは大規模な画像-テキストペアに基づいて事前学習され、統一されたマルチモーダル表現空間を構築し、多様な下流タスクで優れたパフォーマンスを発揮します。しかし、少数ショット学習(few-shot learning)のシナリオでは、特定のタスクに適応させつつ良好な汎化能力を維持するためには、これらのモデルを効果的に調整する方法が依然として解決すべき課題となっています。 既存の手法は通常、プロンプトエンジニアリング(prompt engineering)やパラメ...