基于相互监督框架的指代表达分割与生成
一种用于指代表达分割与生成的互监督框架 研究背景与问题提出 近年来,视觉-语言交互技术在人工智能领域取得了显著进展。其中,指代表达分割(Referring Expression Segmentation, RES)和指代表达生成(Referring Expression Generation, REG)作为两个核心任务,分别旨在根据自然语言描述定位图像中的目标对象并生成其分割掩码,以及为特定目标生成清晰准确的语言描述。尽管这两个任务本质上是互逆的,但它们的研究通常被分开进行,缺乏系统性地探讨两者如何相互促进的方法。 现有研究面临的主要问题包括:1)RES任务依赖大量标注数据,而这些数据的获取成本高昂;2)REG生成的表达可能存在歧义,难以准确定位目标对象;3)联合训练RES和REG的任务虽然...