基于相互监督框架的指代表达分割与生成
一种用于指代表达分割与生成的互监督框架
研究背景与问题提出
近年来,视觉-语言交互技术在人工智能领域取得了显著进展。其中,指代表达分割(Referring Expression Segmentation, RES)和指代表达生成(Referring Expression Generation, REG)作为两个核心任务,分别旨在根据自然语言描述定位图像中的目标对象并生成其分割掩码,以及为特定目标生成清晰准确的语言描述。尽管这两个任务本质上是互逆的,但它们的研究通常被分开进行,缺乏系统性地探讨两者如何相互促进的方法。
现有研究面临的主要问题包括:1)RES任务依赖大量标注数据,而这些数据的获取成本高昂;2)REG生成的表达可能存在歧义,难以准确定位目标对象;3)联合训练RES和REG的任务虽然已被探索,但如何让两者在联合学习中有效受益仍不明确。为此,本文作者提出了一种基于Transformer的互监督框架(Mutual Supervision Framework),通过设计两种方向的监督机制——消歧监督(Disambiguation Supervision)和生成监督(Generation Supervision)——来解决上述问题,并显著提升了两个任务的性能。
论文来源
这篇论文由Shijia Huang、Feng Li、Hao Zhang、Shilong Liu、Lei Zhang和Liwei Wang共同撰写,作者分别来自香港中文大学、国际数字经济研究院(IDEA)、香港科技大学和清华大学。论文发表于《International Journal of Computer Vision》期刊,DOI为10.1007/s11263-024-02325-y,出版时间为2025年。
研究细节与工作流程
a) 研究工作流程
1. 框架概述
本文提出的互监督框架包含三个主要模块: - 共享提案提取器(Shared Proposal Extractor):基于Mask2Former(Cheng et al., 2022)实现,用于从输入图像中提取候选对象。 - 指示生成头(Indicated Generation Head):用于REG任务,生成针对目标对象的自然语言描述。 - 提案选择头(Proposal Selection Head):用于RES任务,根据语言描述选择最佳匹配的对象。
2. 具体流程
研究分为三个步骤进行:
步骤1:端到端联合训练
- 研究对象:使用RefCOCO、RefCOCO+和RefCOCOG三个公开数据集,这些数据集均来源于MS-COCO(Lin et al., 2014),包含大量图像及其对应的指代表达。
- 处理方法:
- 使用ResNet-101作为视觉主干网络提取图像特征。
- Mask2Former作为提案提取器,生成100个候选对象及其分割掩码。
- 指示生成头采用Transformer解码器架构,结合一个新颖的指示模块(Indicator Module)生成语言描述。
- 提案选择头同样基于Transformer解码器,通过计算语言描述与候选对象之间的匹配分数,选择最佳匹配对象。
- 实验设置:采用AdamW优化器,初始学习率为5e-4,批量大小为8,训练90k次迭代。
步骤2:引入消歧监督
- 研究对象:同上。
- 处理方法:
- 在此阶段,冻结提案提取器和提案选择头,仅对指示生成头进行优化。
- 引入强化学习(Reinforcement Learning),通过提案选择头提供的匹配分数设计“无歧义奖励”(Unambiguity Reward)。
- 结合自动度量指标(如CIDEr)进一步优化生成结果。
- 实验设置:学习率降低至1e-6,批量大小为4,训练20k次迭代。
步骤3:引入生成监督
- 研究对象:未标注的MS-COCO实例分割数据(约87k张图像)。
- 处理方法:
- 利用指示生成头自动生成伪表达(Pseudo Expressions),扩展RES任务的训练数据。
- 采用面积过滤(Area-based Filtering)和数据重加权(Data Reweighting)策略减少噪声。
- 将伪表达与真实标注数据结合,重新训练整个框架。
- 实验设置:与步骤1相同。
3. 新方法与算法
- 指示模块(Indicator Module):通过为每个候选对象分配正负指示符(Positive/Negative Indicator),指导语言生成过程,确保生成的表达能够区分目标对象与背景。
- 消歧监督:利用提案选择头提供的匹配分数设计奖励函数,增强生成表达的无歧义性。
- 生成监督:通过自动生成伪表达扩展RES任务的数据规模,同时采用过滤和重加权策略提升数据质量。
b) 主要结果
1. 消歧监督的效果
- 在RefCOCO+测试集上,消歧监督显著提升了CIDEr得分(从0.879提高至0.927)。
- 人类评估结果显示,模型生成的表达具有更高的无歧义性(Top-1 Accuracy从55%提升至61%)。
- 定性分析表明,加入消歧监督后,生成的表达更加详细且精准。例如,“右数第二个熊”比“右边的熊”更能准确定位目标。
2. 生成监督的效果
- 在RefCOCO+验证集上,生成监督使mIoU得分提高了1.46%(从66.21%提升至67.80%)。
- 数据过滤和重加权策略显著降低了伪表达带来的噪声影响,尤其在更难的数据集(如RefCOCO+)上效果更为明显。
- 伪表达的质量至关重要:简单使用类别名称或早期模型生成的表达无法带来性能提升。
3. 整体性能对比
- 在RES任务中,本文方法在所有测试集上的平均mIoU得分均优于现有最佳方法(如RefTR和CRIS),提升幅度达5.97%。
- 在REG任务中,本文方法在CIDEr指标上显著领先,特别是在最困难的RefCOCO+ TestB数据集上,CIDEr得分从0.860提升至0.927。
c) 研究结论与价值
本研究提出了一种创新的互监督框架,通过消歧监督和生成监督实现了RES和REG任务的联合优化。该框架不仅解决了RES任务数据不足的问题,还显著提升了REG生成表达的无歧义性。研究成果在视觉-语言交互领域具有重要科学价值,同时在机器人交互、智能图像检索等实际应用中展现了广阔前景。
d) 研究亮点
- 互监督机制:首次系统性地探讨了RES和REG如何在联合学习中相互促进。
- 指示模块:设计了一种新颖的指示模块,灵活指导语言生成过程。
- 生成监督:通过自动生成伪表达扩展RES任务的数据规模,显著提升了模型性能。
- 性能突破:在多个公开数据集上刷新了RES和REG任务的性能记录。
e) 其他有价值的信息
- 本研究还验证了框架在其他数据集(如PhraseCut和ReferItGame)上的泛化能力。
- 推理速度方面,尽管作为自顶向下方法,本文框架的推理时间(261ms)高于自底向上方法,但在多查询场景下表现优异。
总结
本文通过提出一种基于Transformer的互监督框架,成功解决了指代表达分割与生成任务中的关键问题。其创新性的监督机制和高效的数据扩展策略为视觉-语言交互领域的研究提供了新思路,同时也为实际应用场景奠定了坚实基础。