学习语义一致性用于音频-视觉零样本学习
学术背景 在人工智能领域,零样本学习(Zero-Shot Learning, ZSL)是一项极具挑战性的任务,其目标是通过已见类别的知识来识别未见类别的样本。音频-视觉零样本学习(Audio-Visual Zero-Shot Learning, AVZSL)作为零样本学习的一个分支,旨在通过结合音频和视觉信息来实现对未见类别的分类。然而,现有的许多方法往往过于关注学习强表征,而忽略了音频和视觉之间的语义一致性以及数据本身的层次结构。这种忽略可能导致模型在测试时无法有效分类未见类别,从而限制了其在实际应用中的表现。 为了解决这一问题,来自Guizhou University、Shanghai Jiao Tong University和Oklahoma State University的研究团队...