可扩展的多模态表示学习网络
学术背景 在人工智能领域,多模态表示学习(Multi-modal Representation Learning, MMRL)是一种强大的范式,旨在将来自不同模态的输入映射到一个共享的表示空间中。例如,在社交网络中,用户通常会同时分享图像和文本信息。通过多模态表示学习,模型可以更好地理解文本中的某些词汇或概念与图像中的视觉模式之间的关系。这种范式在医疗保健、情感识别等多个领域得到了广泛应用,因为数据通常以多种形式存在,而多模态信息的融合可以增强系统的整体理解和决策能力。 然而,现有的多模态表示学习方法面临两个主要挑战:高阶信息保留和样本外数据泛化。首先,现有的方法主要考虑成对的标准图结构,忽略了高阶关系可能带来的潜在洞察。其次,大多数现有的图基于多模态表示学习框架假设在推理阶段已经收集了完整...