Atténuation des biais sociaux des modèles de langue pré-entraînés via un auto-désanoblissement contrastif avec une double augmentation de données
Introduction :
Actuellement, les modèles de langue pré-entraînés (PLM) sont largement utilisés dans le domaine du traitement du langage naturel, mais ils ont le problème d’hériter et d’amplifier les préjugés sociaux présents dans les données d’entraînement. Les préjugés sociaux peuvent entraîner des risques imprévisibles lors de l’application réelle des PLM, comme un système de filtrage automatique pour les offres d’emploi qui, en raison des préjugés liés au genre, attribuerait les emplois nécessitant des capacités logiques (comme médecin, programmeur, etc.) aux hommes, et les emplois nécessitant des capacités de soins (comme infirmière, nounou, etc.) aux femmes ; ou encore un système médical qui pourrait avoir des préjugés raciaux, calculant que pour le même niveau de risque, les patients noirs sont plus “fragiles” que les patients blancs. Par conséquent, éliminer les préjugés sociaux encodés dans les PLM est devenu un domaine de recherche significatif et stimulant.
Source de l’article :
Cet article a été publié dans le numéro 332 de la revue réputée “Artificial Intelligence” en 2024. Le premier auteur est Yingji Li, le deuxième auteur est Mengnan Du, et les autres auteurs proviennent respectivement de l’École d’informatique et de technologie de l’Université de Jilin, du Département des sciences des données de l’Institut de technologie du New Jersey, de l’École d’intelligence artificielle de l’Université de Jilin et du Laboratoire d’État clé pour la conception assistée par ordinateur et l’infographie.
Contenu de la recherche et innovations :
Cet article propose un modèle de désaturation par contraste (CD3) qui, grâce à une double augmentation de données et une désaturation par contraste en deux étapes, atténue efficacement les préjugés sociaux encodés dans les PLM.
L’étape de double augmentation de données commence par une première augmentation du corpus d’origine en utilisant des mots d’attributs sensibles (comme male/female) pour obtenir des paires d’échantillons positifs. Ensuite, elle recherche automatiquement les prompts de biais qui maximisent la différence entre les encodages PLM des différents groupes démographiques, et les concatène aux échantillons augmentés de la première étape pour une seconde augmentation. Cette méthode dépasse les limites des méthodes d’augmentation de données basées sur l’expérience humaine.
L’étape de désaturation par contraste utilise le corpus augmenté pour entraîner, par apprentissage par contraste, un adaptateur de désaturation enfichable qui mappe les représentations de phrases du PLM de l’espace de biais d’origine vers un nouvel espace sans biais, sans avoir à mettre à jour les paramètres du PLM lui-même. Cet adaptateur est largement applicable à tout modèle PLM, économisant ainsi d’énormes ressources de calcul, tout en préservant les capacités de modélisation linguistique du PLM.
L’article évalue les effets de désaturation du genre et de la race sur plusieurs jeux de données du monde réel et avec des mesures d’équité. Les résultats expérimentaux montrent que, par rapport aux modèles de base, le CD3 obtient des performances de désaturation exceptionnelles sur BERT, ALBERT et ROBERTA, tout en préservant les capacités de modélisation linguistique des PLM.
Processus et méthodes de recherche :
I. Double augmentation de données
1) Effectuer une première augmentation des données en remplaçant les mots d’attributs sensibles dans le corpus original pour obtenir des paires d’échantillons positifs.
2) Rechercher automatiquement les prompts de biais : pour chaque paire d’échantillons positifs, trouver dans l’espace de recherche donné la séquence de prompts qui maximise la distance entre les représentations des deux phrases comme prompt de biais. Concrètement, à chaque itération, calculer la similarité cosinus des représentations de phrase pour les candidats de prompt actuels, sélectionner les K candidats avec la plus petite similarité comme résultat de cette itération, et les concaténer avec les candidats de l’itération suivante, répéter jusqu’à la fin des itérations.
3) Concaténer les prompts de biais obtenus avec les paires d’échantillons positifs de la première augmentation pour obtenir le corpus augmenté final.
II. Désaturation par contraste
1) Encoder les phrases augmentées dans l’encodeur PLM pour obtenir leurs représentations.
2) Utiliser un adaptateur entraînable G pour mapper les représentations de l’espace d’origine vers un nouvel espace, produisant des représentations désaturées.
3) Faire passer les représentations désaturées des paires d’échantillons positifs dans une fonction de perte par contraste, qui vise à minimiser la distance entre les représentations désaturées des échantillons positifs et à maximiser leur distance avec les autres échantillons.
4) Entraîner les paramètres de l’adaptateur G par apprentissage par contraste, afin qu’il puisse filtrer les biais sociaux de l’espace d’encodage du PLM.
5) Une fois entraîné, l’adaptateur G peut être largement appliqué à tout modèle PLM pour supprimer les préjugés sociaux avant les tâches en aval.
Points forts récapitulatifs :
1) La stratégie de double augmentation de données, en recherchant automatiquement les prompts de biais, renforce davantage le biais entre les paires d’échantillons positifs de différents groupes démographiques, dépassant ainsi les limites des approches basées sur les connaissances a priori.
2) L’adaptateur de désaturation n’a pas besoin d’accéder à la structure et aux paramètres internes du PLM, seuls les paramètres légers de l’adaptateur sont entraînés pour la désaturation, économisant ainsi d’énormes ressources de calcul sans affecter les capacités de modélisation linguistique du PLM.
3) Sur plusieurs jeux de données et mesures d’évaluation du monde réel, des performances exceptionnelles et stables sont obtenues pour la désaturation du genre et de la race, démontrant une forte capacité de généralisation.
L’article explore le défi des préjugés raciaux dans les PLM, soulignant que les mots d’attributs sensibles actuels ne couvrent pas suffisamment les préjugés raciaux, de sorte que la plupart des méthodes actuelles se concentrent sur les préjugés de genre et ont du mal à se généraliser aux autres préjugés sociaux. La stratégie de désaturation proposée par les auteurs réduit dans une certaine mesure la dépendance à l’expérience humaine, ouvrant une nouvelle voie pour mieux résoudre le problème des préjugés raciaux.