Réseau de reconstruction guidé par texte pour l'analyse des sentiments avec des modalités manquantes incertaines

Application du réseau de reconstruction guidé par le texte dans l’analyse des sentiments multimodaux

Contexte académique

L’analyse des sentiments multimodaux (Multimodal Sentiment Analysis, MSA) est un domaine de recherche visant à intégrer les expressions émotionnelles issues du texte, des signaux visuels et acoustiques. Avec l’abondance de contenu en ligne généré par les utilisateurs, la MSA présente un potentiel considérable pour améliorer la compréhension des émotions et les interactions homme-machine. Cependant, les méthodes actuelles de MSA sont confrontées à deux problèmes principaux : 1) le rôle dominant du texte n’est pas pleinement exploité dans les données multimodales non alignées ; 2) l’exploration des modalités en cas de perte incertaine reste insuffisante. Ces problèmes limitent la précision des jugements émotionnels, surtout dans des applications réelles où des facteurs tels que le bruit de fond, les défaillances des capteurs, les visages manquants/obstrués, les mauvaises conditions d’éclairage et les transcriptions manquantes peuvent entraîner une perte aléatoire des modalités.

Pour résoudre ces problèmes, les chercheurs ont proposé un réseau de reconstruction guidé par le texte (Text-Guided Reconstruction Network, TGRN), conçu pour traiter les pertes modales incertaines dans des séquences non alignées. Ce réseau renforce la robustesse de l’analyse des sentiments multimodaux grâce à trois modules principaux : le module d’extraction guidée par le texte (TEM), le module de reconstruction (RM) et le module de fusion guidée par le texte (TFM).

Origine de l’article

Cet article a été co-rédigé par Piao Shi, Min Hu, Satoshi Nakagawa, Xiangming Zheng, Xuefeng Shi et Fuji Ren, issus respectivement de l’Université de Technologie de Hefei, de l’Université de Tokyo, de l’Université de Bozhou et de l’Université des Sciences Électroniques et de la Technologie de Chine. Il a été publié en août 2021 dans la revue « Journal of LaTeX class files » et accepté pour publication dans les « IEEE Transactions on Affective Computing ».

Processus de recherche

a) Processus de recherche

  1. Module d’extraction guidée par le texte (TEM)
    Le module TEM inclut des unités d’attention croisée guidée par le texte (TCA) et des unités d’auto-attention (SA), respectivement conçues pour capturer les caractéristiques intermodales et intramodales. Tout d’abord, les séquences modales incomplètes sont traitées via une couche de convolution temporelle 1D, puis l’information temporelle est enrichie à l’aide d’un encastrement de position (PE). L’unité d’auto-attention (SA) extrait les caractéristiques intramodales en calculant l’attention entre les requêtes (query), clés (key) et valeurs (value), tandis que l’unité d’attention croisée guidée par le texte (TCA) utilise les caractéristiques de la modalité textuelle pour guider et intégrer les caractéristiques visuelles et auditives.

  2. Module de reconstruction (RM)
    Le module RM vise à apprendre les informations sémantiques à partir de données incomplètes et à reconstruire les caractéristiques des modalités manquantes. Ce module comprend des unités d’attention renforcée (EA) et un bloc SE Net à trois voies (3SENet). L’unité EA explore davantage les interactions pour chaque modalité, tandis que le module 3SENet extrait des caractéristiques multidimensionnelles via des opérations de pooling maximal horizontal, vertical et global, augmentant ainsi la capacité expressive des caractéristiques reconstruites.

  3. Module de fusion guidée par le texte (TFM)
    Le module TFM utilise une porte d’adaptation progressive de mélange modal (PMAG) pour explorer les corrélations dynamiques entre les modalités non verbales et verbales, résolvant ainsi le problème de l’écart modal. Le module PMAG calcule les vecteurs de décalage pour chaque modalité et ajuste les représentations modales, qui sont ensuite utilisées pour la tâche de prédiction des émotions.

b) Résultats de la recherche

  1. Résultats du module TEM
    Le module TEM extrait efficacement les caractéristiques des modalités textuelles, visuelles et auditives grâce aux unités d’auto-attention (SA) et d’attention croisée guidée par le texte (TCA). Les expériences montrent que la modalité textuelle joue un rôle dominant dans l’expression émotionnelle, et que les caractéristiques des modalités non verbales sont significativement améliorées grâce aux unités TCA.

  2. Résultats du module RM
    Le module RM reconstruit avec succès les caractéristiques des modalités manquantes grâce aux unités EA et au module 3SENet. Les expériences sur les jeux de données CMU-MOSI et CH-SIMS montrent que le module RM peut apprendre des informations sémantiques efficaces à partir de données incomplètes et améliorer considérablement la précision de l’analyse des émotions.

  3. Résultats du module TFM
    Le module TFM résout efficacement le problème de l’écart modal grâce au module PMAG et obtient des performances exceptionnelles dans la tâche de prédiction des émotions. Les résultats expérimentaux montrent que le modèle TGRN fonctionne bien à la fois dans des conditions de modalités complètes et de pertes modales incertaines.

Conclusion et importance

Le modèle TGRN proposé dans cette étude traite efficacement le problème des pertes modales incertaines dans l’analyse des sentiments multimodaux grâce à trois modules : extraction guidée par le texte, reconstruction modale et fusion. Les résultats expérimentaux montrent que le TGRN surpasse les méthodes les plus avancées existantes sur les jeux de données CMU-MOSI et CH-SIMS. La valeur scientifique de ce modèle réside dans son approche innovante consistant à utiliser la modalité textuelle pour guider l’expression des caractéristiques non verbales et à gérer les problèmes de perte modale via le module de reconstruction. De plus, le modèle TGRN présente une grande robustesse dans des scénarios réels complexes.

Points forts de la recherche

  1. Importance du guidage textuel : Cette étude propose pour la première fois d’utiliser la modalité textuelle pour guider l’expression des caractéristiques visuelles et auditives, améliorant ainsi considérablement la précision de l’analyse des sentiments multimodaux.
  2. Innovation dans la reconstruction modale : Grâce aux unités d’attention renforcée et au module 3SENet, le module RM peut efficacement reconstruire les caractéristiques des modalités manquantes à partir de données incomplètes.
  3. Dynamisme de la fusion modale : Le module PMAG ajuste dynamiquement les représentations modales, résolvant le problème de l’écart modal et améliorant encore la précision de la prédiction des émotions.

Autres informations utiles

Cette étude utilise également la méthode de visualisation T-SNE pour montrer la distribution des caractéristiques modales dans l’analyse des émotions, validant davantage le rôle dominant de la modalité textuelle dans l’analyse des sentiments multimodaux. En outre, l’étude analyse l’impact de chaque module sur les résultats de l’analyse des émotions à l’aide de graphiques Bland-Altman, prouvant la supériorité du modèle TGRN.

Cette recherche offre une nouvelle solution pour l’analyse des sentiments multimodaux, présentant une importance théorique et applicative significative. Les recherches futures peuvent explorer davantage l’optimisation des paramètres du modèle et la résolution des problèmes de déséquilibre des catégories dans les jeux de données pour améliorer encore les performances du modèle.