参照表現セグメンテーションと生成のための相互監視フレームワーク

参照表現セグメンテーションと生成のための相互監視フレームワーク

指表現セグメンテーションと生成のための相互監督フレームワーク 研究背景と問題提起 近年、視覚と言語の相互作用技術は人工知能分野で顕著な進展を遂げています。その中で、指表現セグメンテーション(Referring Expression Segmentation, RES)と指表現生成(Referring Expression Generation, REG)という2つのコアタスクは、それぞれ自然言語記述に基づいて画像内の対象オブジェクトを特定し、そのセグメンテーションマスクを生成する、または特定の対象に対して明確かつ正確な言語記述を生成することを目指します。これらのタスクは本質的に逆の関係にありますが、研究は通常別々に行われており、どのように相互に促進できるかを体系的に議論する方法が欠けています...

マルチビュー画像を用いたエンドツーエンド視覚セマンティックローカライゼーションネットワーク

マルチビュー画像に基づくエンドツーエンド視覚セマンティックローカライズ研究 背景と研究の意義 スマートドライビング技術が急速に発展する中で、自動運転車の精密な位置推定能力は研究と産業界でのホットな話題となっています。正確な車両位置推定は、自動運転のコアモジュールであるだけでなく、高度運転支援システム(ADAS)の重要な構成要素でもあります。従来の視覚ローカライズ手法は、しばしば幾何学モデルと複雑なパラメータ調整に依存していましたが、複雑なシーンではそのロバスト性と大規模展開能力が限られていました。また、環境の変化(天候や照明条件など)の影響を受けやすく、従来の特徴抽出手法(例えばSIFT、SURF、ORBなど)は動的環境下での性能に限界があります。近年では、豊富なセマンティック情報を含む高精...