テキスト認識型クロスモーダルコントラストデザンタングリングによるマルチグレインビジュアルピボットガイドのマルチモーダルニューラルマシントランスレーション
多尺度視覚中枢ガイドの多モーダル神経機械翻訳:テキスト認識のクロスモーダル対比デカップリング 学術背景 多モーダル神経機械翻訳(Multi-Modal Neural Machine Translation, MNMT)は、言語に依存しない視覚情報をテキストに導入して機械翻訳の性能を向上させることを目指しています。しかし、画像とテキストはモーダル間で顕著な差異があるため、両者間では避けられない意味の不一致が発生します。これらの問題を解決するための目標は、分解された多尺度視覚情報をクロスランゲージ中枢として使用することにより、異なる言語間のアライメントを向上させ、MNMTのパフォーマンスを改善することです。 論文情報 この論文は朱俊俊、蘇瑞および葉俊杰などの研究者によって執筆され、著者はそれぞれ...