学习语义一致性用于音频-视觉零样本学习

学术背景

在人工智能领域,零样本学习(Zero-Shot Learning, ZSL)是一项极具挑战性的任务,其目标是通过已见类别的知识来识别未见类别的样本。音频-视觉零样本学习(Audio-Visual Zero-Shot Learning, AVZSL)作为零样本学习的一个分支,旨在通过结合音频和视觉信息来实现对未见类别的分类。然而,现有的许多方法往往过于关注学习强表征,而忽略了音频和视觉之间的语义一致性以及数据本身的层次结构。这种忽略可能导致模型在测试时无法有效分类未见类别,从而限制了其在实际应用中的表现。

为了解决这一问题,来自Guizhou UniversityShanghai Jiao Tong UniversityOklahoma State University的研究团队提出了一种新的框架——LSC-AVZSL(Learning Semantic Consistency for Audio-Visual Zero-Shot Learning)。该框架通过引入注意力机制和双曲空间(Hyperbolic Space)来增强跨模态信息的交互,并捕捉数据的内在层次结构,从而提升模型的性能。

论文来源

该论文由Xiaoyong LiJing YangYuling ChenWei ZhangXiaoli RuanChengjiang LiZhidong Su共同撰写,于2025年4月10日被Artificial Intelligence Review期刊接收,并于同年发表。论文的标题为《Learning Semantic Consistency for Audio-Visual Zero-Shot Learning》,DOI为10.1007/s10462-025-11228-4

研究流程

1. 问题定义与研究框架

在音频-视觉零样本学习中,模型需要从未见类别的样本中学习并分类。研究团队提出了LSC-AVZSL框架,该框架由三个主要模块组成:双曲空间模块Transformer模块对比损失模块。双曲空间模块用于捕捉音频-视觉数据的层次结构,Transformer模块通过多头注意力机制增强跨模态信息交互,而对比损失模块则通过噪声对比估计(Noise Contrastive Estimation, NCE)来缩小不同模态特征之间的距离。

2. 双曲空间建模

音频-视觉数据通常具有层次结构,例如VGGSound-GZSLCls数据集包含九个大类,而ActivityNet-GZSLCls数据集则具有至少四层的层次结构。为了有效捕捉这些层次关系,研究团队将数据投影到双曲空间中。双曲空间具有负曲率,能够更自然地表示层次结构。具体步骤包括双曲投影对数映射。双曲投影将欧几里得空间中的点映射到双曲空间中的Poincaré球模型中,而对数映射则将双曲空间中的点局部线性化,以便进行数值计算和优化。

3. 音频-视觉融合Transformer

为了学习多模态表征,研究团队设计了一个多模态融合Transformer。该Transformer由标准的Transformer层组成,每层包括多头自注意力机制(Multihead Self-Attention, MSA)和前馈神经网络(Feedforward Network, FFN)。在训练过程中,模型通过联合输入音频、视觉以及它们的组合来学习多模态表征。通过这种方式,模型不仅能够学习单一模态的表征,还能够捕捉模态之间的交互。

4. 损失函数设计

研究团队提出了一种组合对比损失函数(Combinatorial Contrastive Loss),该损失函数考虑了不同模态组合之间的交互。具体包括文本-视觉、文本-音频和音频-视觉对比损失,以及跨模态信息交换的额外对比损失项。此外,还引入了双曲对齐损失(Hyperbolic Alignment Loss)来最小化不同模态特征之间的差异,以及重建损失(Reconstruction Loss)和回归损失(Regression Loss)来优化模型的训练。

主要结果

1. 数据集与实验结果

研究团队在三个基准数据集上测试了LSC-AVZSL框架:VGGSound-GZSLClsUCF-GZSLClsActivityNet-GZSLCls。实验结果表明,LSC-AVZSL在所有三个数据集上都取得了最先进的性能。例如,在UCF-GZSLCls数据集上,LSC-AVZSL的调和均值(Harmonic Mean, HM)达到了61.67%,比次优的基线方法ClipClap-GZSL提高了5.2%。在ActivityNet-GZSLCls数据集上,LSC-AVZSL的HM为30.77%,而ClipClap-GZSL的HM为27.93%。

2. 可视化分析

通过t-SNE(t-Distributed Stochastic Neighbor Embedding)可视化,研究团队展示了模型输入特征和输出嵌入的分布。结果表明,LSC-AVZSL模型学习到的音频-视觉嵌入具有更清晰的类间边界和更紧凑的类内结构,证明了模型在捕捉语义一致性和层次结构方面的有效性。

结论与意义

LSC-AVZSL框架通过引入注意力机制和双曲空间,有效解决了音频-视觉零样本学习中的语义不一致性和层次结构建模不足的问题。该框架不仅在多个基准数据集上取得了最先进的性能,还为未来的多模态融合方法提供了新的思路。研究团队表示,未来将继续探索更高效的多模态融合方法,并将其应用于自动驾驶和智能监控等复杂场景中。

研究亮点

  1. 注意力机制:通过多头注意力机制增强了音频和视觉模态之间的信息交互,提升了语义一致性。
  2. 双曲空间:利用双曲空间捕捉音频-视觉数据的层次结构,增强了模型的表征能力。
  3. 组合对比损失:提出了一种新的损失函数,有效缩小了不同模态特征之间的距离。
  4. 实验性能:在多个基准数据集上取得了最先进的性能,特别是在UCF-GZSLCls数据集上表现尤为突出。

其他有价值的信息

研究团队还公开了代码和数据,供其他研究人员进一步研究和验证。代码和数据可通过以下链接访问:GitHub

通过这项研究,LSC-AVZSL框架为音频-视觉零样本学习领域提供了新的解决方案,并为未来的多模态融合研究奠定了坚实的基础。