Cadre Unifié de Distillation Pondérée par Échantillon Basé sur des Prototypes Adapté à l'Analyse de Sentiment de Modalité Manquante
Application d’un cadre unifié de distillation pondérée basé sur des prototypes à l’analyse des émotions en cas de modalités manquantes
Contexte de la recherche
L’analyse des émotions est un domaine important du traitement automatique des langues (TAL). Avec le développement des plateformes de médias sociaux, les gens préfèrent de plus en plus exprimer leurs émotions à travers de courts extraits vidéo. Cela a conduit à une croissance rapide des données multimodales. Cependant, il est fréquent dans la vie réelle de rencontrer des modalités manquantes, par exemple en raison de la perte d’audio, d’obstruction de la caméra ou d’erreurs de transcription vocale. Dans ce contexte, l’analyse des émotions avec des modalités manquantes devient un sujet important et difficile. L’hétérogénéité multimodale pose souvent des problèmes d’équilibre d’optimisation lorsque l’on tente d’optimiser les mêmes objectifs sur un réseau multimodal, surtout en cas de modalités manquantes. Les recherches existantes traitant des modalités manquantes négligent souvent le problème de l’équilibre de l’optimisation du réseau.
Origine de la recherche
Cet article a été rédigé conjointement par Zhang Yujun, Liu Fang’e, Zhuang Xuqiang, Hou Ying, et Zhang Yuling de l’École des sciences de l’information et de l’ingénierie de l’Université normale du Shandong. Il a été publié le 20 mai 2024 dans la revue « Neural Networks ».
Processus de recherche
1. Aperçu du processus de recherche
Pour résoudre les problèmes ci-dessus, cet article propose un cadre unifié de distillation pondérée par échantillon basé sur des prototypes (PSWD) et l’applique à l’analyse des émotions en cas de modalités manquantes. Plus précisément, PSWD utilise un module de fusion hiérarchique cyclique intermodalité basé sur Transformer pour fusionner les caractéristiques. Il combine également une stratégie de distillation pondérée par échantillon et un réseau de régularisation par prototypes pour faire face aux problèmes de modalités manquantes et d’équilibre d’optimisation. Le principal processus de cet article comprend les modules suivants : encodeur de caractéristiques, encodeur de caractéristiques invariantes, module de fusion hiérarchique cyclique intermodalité, classificateur d’émotions et réseau de régularisation par prototypes.
2. Processus spécifique et conception expérimentale
a. Module d’encodeur de caractéristiques Ce module d’encodeur de caractéristiques conçoit des encodeurs indépendants pour chaque modalité (audio, visuel et texte). Les modalités audio et visuelle utilisent un réseau LSTM et une couche de max-pooling pour extraire les caractéristiques au niveau de l’énoncé, tandis que la modalité textuelle utilise TextCNN pour l’extraction des caractéristiques.
b. Module d’encodeur de caractéristiques invariantes Le module d’encodeur de caractéristiques invariantes est composé d’une couche entièrement connectée, d’une fonction d’activation et d’une couche de Dropout, visant à utiliser la contrainte centrale du moment (CMD) pour mapper les caractéristiques spécifiques à une modalité dans un sous-espace partagé, afin d’extraire les caractéristiques invariables des modalités.
c. Module de fusion hiérarchique cyclique intermodalité Ce module utilise les caractéristiques invariables des modalités pour fusionner dans une structure de fusion mutuelle hiérarchique. En assurant la diversité des caractéristiques invariantes, il permet une fusion intermodalité efficace dans une structure hiérarchique cyclique, permettant à toutes les modalités de communiquer et de se compléter efficacement.
d. Classificateur Les caractéristiques fusionnées sont combinées avec les caractéristiques spécifiques des modalités pour former une représentation multimodale conjointe, utilisée pour la classification des émotions. Le classificateur d’émotions est composé de plusieurs couches entièrement connectées pour calculer la distribution des probabilités de prédiction des émotions.
e. Régularisation par prototypes La régularisation par prototypes introduit des prototypes de classification pour chaque modalité, construisant un classificateur non paramétrique. Elle mesure la distance entre chaque échantillon et tous les prototypes afin d’évaluer la performance de chaque modalité et d’accélérer l’optimisation des modalités les plus faibles par un ajustement adaptatif des gradients.
Principaux résultats
Cet article a mené de nombreuses expériences sur deux ensembles de données de référence (IEMOCAP et MSP-IMPROV). Les résultats expérimentaux montrent que le PSWD obtient les meilleurs résultats en comparaison avec les méthodes de référence les plus récentes.
Conclusion de la recherche
Le cadre PSWD proposé dans cet article connecte non seulement la recherche sur l’analyse des émotions complète, mais résout également le problème de l’analyse des émotions en cas de modalités manquantes. En utilisant une stratégie de distillation pondérée par échantillon et un réseau de régularisation par prototypes, il aborde efficacement le problème de l’équilibre d’optimisation. Les résultats montrent que cette méthode peut atteindre une grande robustesse et une adaptabilité étendue dans divers scénarios d’application.
Points forts de la recherche
- Nouveauté de la méthode : Propose une méthode de fusion hiérarchique cyclique intermodalité basée sur Transformer.
- Distillation pondérée par échantillon : Usage innovant de la stratégie de distillation pondérée par échantillon pour améliorer les performances du modèle en cas de modalités manquantes.
- Réseau de régularisation par prototypes : Utilise un réseau de prototypes pour ajuster de manière adaptative les gradients d’optimisation pour chaque modalité.
Découvertes importantes et leur signification
Le cadre PSWD démontre de bonnes performances dans la plupart des scénarios de modalités manquantes, indiquant une valeur d’application élevée pour traiter les modalités manquantes dans les applications pratiques. De plus, cette recherche ne se limite pas à l’analyse des émotions et peut être étendue à d’autres tâches de classification multimodale, avec la promesse d’applications et de promotions dans divers domaines.