Apprentissage de la cohérence sémantique pour l'apprentissage zéro-shot audio-visuel

Contexte académique

Dans le domaine de l’intelligence artificielle, l’apprentissage zéro-shot (Zero-Shot Learning, ZSL) est une tâche extrêmement complexe, dont l’objectif est de reconnaître des échantillons de classes non vues en utilisant les connaissances des classes déjà vues. L’apprentissage audio-visuel zéro-shot (Audio-Visual Zero-Shot Learning, AVZSL), en tant que branche du ZSL, vise à classer des catégories non vues en combinant des informations audio et visuelles. Cependant, de nombreuses méthodes existantes se concentrent trop sur l’apprentissage de représentations fortes, tout en négligeant la cohérence sémantique entre l’audio et le visuel, ainsi que la structure hiérarchique inhérente aux données. Cette négligence peut empêcher le modèle de classer efficacement les classes non vues lors des tests, limitant ainsi ses performances dans des applications réelles.

Pour résoudre ce problème, une équipe de recherche de l’Université de Guizhou, de l’Université Jiao Tong de Shanghai et de l’Université d’État de l’Oklahoma a proposé un nouveau cadre appelé LSC-AVZSL (Learning Semantic Consistency for Audio-Visual Zero-Shot Learning). Ce cadre introduit un mécanisme d’attention et un espace hyperbolique (Hyperbolic Space) pour améliorer l’interaction des informations intermodales et capturer la structure hiérarchique des données, améliorant ainsi les performances du modèle.

Source de l’article

Cet article a été co-écrit par Xiaoyong Li, Jing Yang, Yuling Chen, Wei Zhang, Xiaoli Ruan, Chengjiang Li et Zhidong Su, et a été accepté par la revue Artificial Intelligence Review le 10 avril 2025, puis publié la même année. Le titre de l’article est Learning Semantic Consistency for Audio-Visual Zero-Shot Learning, et son DOI est 10.1007/s10462-025-11228-4.

Processus de recherche

1. Définition du problème et cadre de recherche

Dans l’apprentissage audio-visuel zéro-shot, le modèle doit apprendre et classer des échantillons de classes non vues. L’équipe de recherche a proposé le cadre LSC-AVZSL, qui se compose de trois modules principaux : le module d’espace hyperbolique, le module Transformer et le module de perte contrastive. Le module d’espace hyperbolique est utilisé pour capturer la structure hiérarchique des données audio-visuelles, le module Transformer améliore l’interaction intermodale grâce à un mécanisme d’attention multi-têtes, et le module de perte contrastive réduit la distance entre les caractéristiques de différentes modalités grâce à l’estimation contrastive par bruit (Noise Contrastive Estimation, NCE).

2. Modélisation de l’espace hyperbolique

Les données audio-visuelles présentent souvent une structure hiérarchique. Par exemple, le jeu de données VGGSound-GZSLCls contient neuf grandes catégories, tandis que le jeu de données ActivityNet-GZSLCls possède au moins quatre niveaux hiérarchiques. Pour capturer efficacement ces relations hiérarchiques, l’équipe de recherche a projeté les données dans un espace hyperbolique. L’espace hyperbolique, avec sa courbure négative, permet une représentation plus naturelle des structures hiérarchiques. Les étapes spécifiques incluent la projection hyperbolique et la cartographie logarithmique. La projection hyperbolique mappe les points de l’espace euclidien dans le modèle de boule de Poincaré de l’espace hyperbolique, tandis que la cartographie logarithmique linéarise localement les points de l’espace hyperbolique pour permettre des calculs numériques et une optimisation.

3. Transformer de fusion audio-visuelle

Pour apprendre des représentations multimodales, l’équipe de recherche a conçu un Transformer de fusion multimodale. Ce Transformer est composé de couches Transformer standard, chaque couche incluant un mécanisme d’attention multi-têtes (Multihead Self-Attention, MSA) et un réseau de neurones feedforward (Feedforward Network, FFN). Pendant l’entraînement, le modèle apprend des représentations multimodales en utilisant des entrées combinées d’audio, de visuel et de leurs combinaisons. De cette manière, le modèle peut non seulement apprendre des représentations unimodales, mais aussi capturer les interactions entre les modalités.

4. Conception de la fonction de perte

L’équipe de recherche a proposé une fonction de perte contrastive combinée (Combinatorial Contrastive Loss), qui prend en compte les interactions entre différentes combinaisons de modalités. Cela inclut les pertes contrastives texte-visuel, texte-audio et audio-visuel, ainsi que des termes de perte contrastive supplémentaires pour l’échange d’informations intermodales. De plus, une perte d’alignement hyperbolique (Hyperbolic Alignment Loss) a été introduite pour minimiser les différences entre les caractéristiques des différentes modalités, ainsi qu’une perte de reconstruction (Reconstruction Loss) et une perte de régression (Regression Loss) pour optimiser l’entraînement du modèle.

Résultats principaux

1. Jeux de données et résultats expérimentaux

L’équipe de recherche a testé le cadre LSC-AVZSL sur trois jeux de données de référence : VGGSound-GZSLCls, UCF-GZSLCls et ActivityNet-GZSLCls. Les résultats expérimentaux montrent que LSC-AVZSL a atteint des performances de pointe sur les trois jeux de données. Par exemple, sur le jeu de données UCF-GZSLCls, la moyenne harmonique (Harmonic Mean, HM) de LSC-AVZSL a atteint 61,67 %, soit une amélioration de 5,2 % par rapport à la méthode de référence ClipClap-GZSL. Sur le jeu de données ActivityNet-GZSLCls, la HM de LSC-AVZSL était de 30,77 %, tandis que celle de ClipClap-GZSL était de 27,93 %.

2. Analyse visuelle

Grâce à la visualisation t-SNE (t-Distributed Stochastic Neighbor Embedding), l’équipe de recherche a montré la distribution des caractéristiques d’entrée et des embeddings de sortie du modèle. Les résultats montrent que les embeddings audio-visuels appris par le modèle LSC-AVZSL ont des limites interclasses plus claires et des structures intraclasses plus compactes, prouvant l’efficacité du modèle à capturer la cohérence sémantique et la structure hiérarchique.

Conclusion et signification

Le cadre LSC-AVZSL, en introduisant un mécanisme d’attention et un espace hyperbolique, résout efficacement les problèmes d’incohérence sémantique et de modélisation insuffisante de la structure hiérarchique dans l’apprentissage audio-visuel zéro-shot. Ce cadre a non seulement atteint des performances de pointe sur plusieurs jeux de données de référence, mais a également ouvert de nouvelles perspectives pour les méthodes futures de fusion multimodale. L’équipe de recherche a indiqué qu’elle continuerait à explorer des méthodes de fusion multimodale plus efficaces et les appliquerait à des scénarios complexes tels que la conduite autonome et la surveillance intelligente.

Points forts de la recherche

  1. Mécanisme d’attention : Améliore l’interaction des informations entre les modalités audio et visuelles grâce à un mécanisme d’attention multi-têtes, renforçant la cohérence sémantique.
  2. Espace hyperbolique : Utilise l’espace hyperbolique pour capturer la structure hiérarchique des données audio-visuelles, améliorant la capacité de représentation du modèle.
  3. Perte contrastive combinée : Propose une nouvelle fonction de perte qui réduit efficacement la distance entre les caractéristiques des différentes modalités.
  4. Performances expérimentales : Atteint des performances de pointe sur plusieurs jeux de données de référence, en particulier sur le jeu de données UCF-GZSLCls.

Autres informations utiles

L’équipe de recherche a également rendu public le code et les données pour permettre à d’autres chercheurs de poursuivre leurs recherches et de valider les résultats. Le code et les données sont accessibles via le lien suivant : GitHub.

Grâce à cette recherche, le cadre LSC-AVZSL offre une nouvelle solution dans le domaine de l’apprentissage audio-visuel zéro-shot et pose les bases de futures recherches sur la fusion multimodale.