多尺度视觉中枢引导的多模态神经机器翻译:文本感知的跨模态对比解耦

多尺度视觉中枢引导的多模态神经机器翻译:文本感知的跨模态对比解耦

多尺度视觉中枢引导的多模态神经机器翻译:文本感知的跨模态对比解耦 学术背景 多模态神经机器翻译(Multi-Modal Neural Machine Translation, MNMT)旨在将语言无关的视觉信息引入文本以提升机器翻译的性能。然而,由于图像和文本在模态上的显著差异,这两者之间不可避免会出现语义不匹配的问题。解决这些问题的目标在于通过使用分解的多尺度视觉信息作为跨语言中枢,提高不同语言之间的对齐,从而改进MNMT的表现。 论文来源 这篇论文由朱俊俊、苏瑞和叶俊杰等研究人员撰写,作者分别来自昆明理工大学信息工程与自动化学院、云南大学信息科学与工程学院以及云南省人工智能重点实验室。论文将在2024年发表于著名期刊”Neural Networks”。 研究流程 研究工作主要分为以下几个...