Un cadre général de débiaisage avec raisonnement contrefactuel pour la détection de l'anxiété de prise de parole en public multimodale

Contexte académique et introduction du problème

Dans le domaine de l’éducation actuelle, l’anxiété de parler en public (Public Speaking Anxiety, PSA) est un phénomène répandu, en particulier chez les apprenants non natifs. Cette anxiété affecte non seulement la capacité d’expression des apprenants, mais peut également entraver leur développement personnel. Pour aider les apprenants à surmonter ce problème, les chercheurs ont commencé à explorer comment détecter automatiquement l’état d’anxiété lors de discours en utilisant des données multimodales (comme la vidéo, l’audio et le texte). Cependant, les modèles existants de détection d’anxiété de parole publique multimodale (Multimodal Public Speaking Anxiety Detection, MPSAD) sont facilement influencés par divers biais potentiels lors de l’entraînement, tels que le biais contextuel (context bias), le biais d’étiquetage (label bias) et le biais de mots-clés (keyword bias). Ces biais amènent les modèles à trop dépendre de certaines caractéristiques superficielles, sans exploiter pleinement les informations multimodales, ce qui réduit la précision de la détection.

Pour résoudre ce problème, les chercheurs ont proposé un cadre général de débiaisage par raisonnement contrefactuel multimodal (General Multimodal Counterfactual Reasoning Debiasing Framework, GMCR), visant à éliminer les biais mixtes dans les données multimodales sous l’angle des relations causales, améliorant ainsi la robustesse et la précision des modèles.

Source de l’article et informations sur les auteurs

Cet article a été co-écrit par Tingting Zhang, Yangfu Zhu, Bin Wu et d’autres auteurs de l’École d’informatique de l’Université des postes et télécommunications de Pékin (École nationale pilote de génie logiciel), et publié en 2025 dans la revue Neural Networks. Le titre de l’article est A General Debiasing Framework with Counterfactual Reasoning for Multimodal Public Speaking Anxiety Detection.

Processus de recherche et conception expérimentale

1. Définition du problème et construction du jeu de données

L’étude commence par définir la tâche de détection d’anxiété de parole publique multimodale et la considère comme un problème de classification multiple. Pour valider l’efficacité du cadre GMCR, les chercheurs ont construit un nouveau jeu de données sur l’anxiété de parole publique en anglais multimodale (Multimodal English Public Speaking Anxiety, ME-PSA). Ce jeu de données contient 794 vidéos de discours provenant de 365 participants, pour une durée totale de 47,84 heures, et est divisé en 15 378 clips vidéo, chacun annoté avec cinq niveaux d’état d’anxiété. En outre, l’étude a également utilisé le jeu de données public SAC (Speaking Anxiety in Class) et le jeu de données CMU-MOSEI pour des expériences comparatives.

2. Conception du cadre GMCR

Le cœur du cadre GMCR consiste à éliminer les biais mixtes dans les données multimodales par raisonnement contrefactuel. Plus précisément, le cadre comprend les trois modules clés suivants :
- Module de découplage causal (Causal Disentanglement Module) : À l’aide d’extracteurs causaux et d’extracteurs de biais indépendants, il décompose les données d’entrée de chaque modalité en caractéristiques causales et caractéristiques biaisées, et utilise le critère d’indépendance de Hilbert-Schmidt (HSIC) pour garantir leur indépendance.
- Module de branche contrefactuelle (Counterfactual Branch Module) : Construit un monde contrefactuel en supposant que le modèle ne voit que les caractéristiques biaisées, évaluant ainsi l’impact négatif direct des biais sur les prédictions du modèle.
- Module de débiaisage contrefactuel (Counterfactual Debiasing Module) : Pendant la phase d’inférence, il soustrait l’effet direct naturel (Natural Direct Effect, NDE) de l’effet total (Total Effect, TE) pour obtenir l’effet indirect total (Total Indirect Effect, TIE), permettant ainsi des prédictions non biaisées.

3. Expériences et analyse des résultats

L’étude a mené des expériences approfondies sur les jeux de données ME-PSA, SAC et CMU-MOSEI, comparant les performances du cadre GMCR à celles de diverses méthodes existantes. Les résultats expérimentaux montrent que le cadre GMCR surpasse significativement les méthodes existantes sur plusieurs indicateurs d’évaluation. Par exemple, sur le jeu de données SAC, GMCR a augmenté la précision de classification à 4 classes du modèle LAD de 53,64 % à 56,36 %, et le score F1 de 41,54 % à 45,89 %. De plus, GMCR a également démontré une bonne capacité de généralisation sur le jeu de données CMU-MOSEI, validant davantage son efficacité.

4. Expériences d’ablation et analyse de sensibilité des paramètres

Pour évaluer la contribution de chaque module du cadre GMCR, l’étude a mené des expériences d’ablation systématiques. Les résultats montrent que la suppression du module de découplage causal ou du module de branche contrefactuelle entraîne une baisse significative des performances du modèle, indiquant que ces deux modules jouent un rôle clé dans le processus de débiaisage. En outre, les expériences de sensibilité des paramètres montrent que les performances du modèle atteignent leur optimum lorsque les paramètres de contrainte d’indépendance 𝛼 et 𝛽 sont fixés à 1,0.

Conclusion et signification de la recherche

Le cadre GMCR, en introduisant le raisonnement causal et l’analyse contrefactuelle, a résolu avec succès le problème des biais mixtes dans la tâche de détection d’anxiété de parole publique multimodale. Ses principales contributions incluent :
1. Universalité : Le cadre GMCR ne dépend pas de types spécifiques de biais et peut traiter simultanément plusieurs biais, s’appliquant à tout modèle MPSAD existant.
2. Efficacité : Les résultats expérimentaux montrent que GMCR améliore significativement la précision de détection et la robustesse des modèles, obtenant les meilleures performances sur plusieurs jeux de données.
3. Innovation : Le cadre GMCR applique pour la première fois le raisonnement contrefactuel à la tâche de détection d’anxiété de parole publique multimodale, offrant une nouvelle perspective pour les recherches sur le débiaisage des données multimodales.

Points forts et valeur de la recherche

  • Importance du problème : La détection de l’anxiété de parole publique est d’une grande importance dans le domaine de l’éducation, et le cadre GMCR résout efficacement les problèmes de biais des modèles existants, fournissant un soutien technique pour l’enseignement personnalisé.
  • Innovation méthodologique : Le cadre GMCR réalise des prédictions non biaisées sur les données multimodales par découplage causal et raisonnement contrefactuel, possédant une valeur théorique et pratique élevée.
  • Richesse des données : Le jeu de données ME-PSA, de grande taille et finement annoté, constitue une ressource précieuse pour les recherches futures dans ce domaine.

Autres informations utiles

L’étude a également illustré les avantages du cadre GMCR dans des applications pratiques à travers des études de cas. Par exemple, dans un cas impliquant des biais contextuels et des biais de mots-clés, GMCR a corrigé avec succès les prédictions erronées du modèle de base, prouvant son efficacité dans des scénarios de biais complexes.

Cet article, en proposant le cadre GMCR, offre une nouvelle solution à la tâche de détection d’anxiété de parole publique multimodale, faisant progresser la recherche dans ce domaine et fournissant un soutien technique solide pour les applications pratiques.