参照表現セグメンテーションと生成のための相互監視フレームワーク
指表現セグメンテーションと生成のための相互監督フレームワーク 研究背景と問題提起 近年、視覚と言語の相互作用技術は人工知能分野で顕著な進展を遂げています。その中で、指表現セグメンテーション(Referring Expression Segmentation, RES)と指表現生成(Referring Expression Generation, REG)という2つのコアタスクは、それぞれ自然言語記述に基づいて画像内の対象オブジェクトを特定し、そのセグメンテーションマスクを生成する、または特定の対象に対して明確かつ正確な言語記述を生成することを目指します。これらのタスクは本質的に逆の関係にありますが、研究は通常別々に行われており、どのように相互に促進できるかを体系的に議論する方法が欠けています...