Généralisation hors distribution par composition : une perspective à travers les têtes d'induction dans les transformateurs

Étude sur la généralisation hors distribution et les mécanismes de composition dans les grands modèles de langage

Contexte du papier

Ces dernières années, les grands modèles de langage (Large Language Models, LLMs) comme GPT-4 ont montré une créativité étonnante dans la résolution de tâches nouvelles, en étant souvent capables de résoudre des problèmes avec seulement quelques exemples. Ces tâches exigent que les modèles généralisent sur des distributions différentes de celles des données d’entraînement, ce qui est connu sous le nom de « généralisation hors distribution » (Out-of-Distribution Generalization, OOD Generalization). Bien que les LLMs aient connu un grand succès, comment ils réalisent cette généralisation reste encore un mystère non élucidé. Cet article vise à explorer les performances des LLMs dans des tâches générées par des règles cachées, en se concentrant particulièrement sur un composant appelé « têtes d’induction » (Induction Heads, IHs), pour révéler la relation entre la généralisation hors distribution et les mécanismes de composition.

L’étude se concentre sur les performances des LLMs dans des tâches de raisonnement symbolique, explorant comment ces modèles peuvent inférer les règles cachées derrière les entrées sans aucune mise à jour des paramètres. Grâce à des études empiriques sur la dynamique d’entraînement, les auteurs ont découvert que les LLMs apprennent des règles en combinant deux couches d’auto-attention, permettant ainsi la généralisation hors distribution. De plus, les auteurs proposent l’hypothèse de la « représentation commune de pont » (Common Bridge Representation Hypothesis), selon laquelle un sous-espace latent partagé dans l’espace d’incrustation (ou de caractéristiques) agit comme un pont en alignant les couches initiales et ultérieures.

Source du papier

Cet article a été coécrit par Jiajun Song, Zhuoyan Xu et Yiqiao Zhong, respectivement affiliés à l’Institut de recherche en intelligence artificielle générale de Pékin et à l’Université du Wisconsin-Madison. Il a été publié le 7 février 2025 dans PNAS (Proceedings of the National Academy of Sciences) sous le titre “Out-of-Distribution Generalization via Composition: A Lens through Induction Heads in Transformers”.

Processus de recherche et résultats

Processus de recherche

  1. Expérimentation sur tâche synthétique
    Les auteurs ont d’abord effectué une expérimentation sur une tâche synthétique, celle de la “copie de séquence”. Étant donné une séquence contenant un motif répété (comme [a], [b], [c]), le modèle doit prédire le prochain jeton comme [c] après avoir reçu [a], [b]. L’expérience a utilisé un modèle Transformer à deux couches, avec des mécanismes d’auto-attention standard et des connexions résiduelles lors de l’entraînement.

  2. Analyse de la dynamique d’entraînement
    Au cours de l’entraînement, les auteurs ont observé deux phases : la phase de faible apprentissage et la phase d’apprentissage de règles. Dans la phase de faible apprentissage, le modèle ne maîtrisait que les caractéristiques statistiques simples de la séquence d’entrée et n’était pas capable de généraliser sur des données hors distribution. Par contre, dans la phase d’apprentissage de règles, le modèle a appris la règle de copie et a bien performé sur des données à la fois de distribution et hors distribution.

  3. Rôle des têtes d’induction
    En analysant la dynamique d’entraînement, les auteurs ont découvert que les têtes d’induction (IHs) jouaient un rôle clé dans la généralisation hors distribution. Les IHs sont des têtes d’auto-attention qui reconnaissent les motifs répétés dans les séquences d’entrée et prédiquent le prochain jeton. Les expériences ont montré que le modèle réalise la généralisation hors distribution en combinant deux couches d’auto-attention, traitant respectivement les informations de position et de jetons.

  4. Hypothèse de la représentation commune de pont
    Les auteurs ont proposé l’hypothèse de la représentation commune de pont, affirmant qu’un sous-espace latent dans les modèles multicouches et multi-têtes agit comme un pont pour la composition. En alignant les sous-espaces des couches initiales et ultérieures, le modèle peut généraliser sur des données hors distribution.

  5. Expérimentation sur grands modèles de langage
    Pour vérifier cette hypothèse, les auteurs ont mené des expériences approfondies sur plusieurs LLMs pré-entraînés, notamment LLaMA, Mistral et Falcon. Les résultats des expériences ont montré que les IHs jouaient un rôle crucial dans des tâches de raisonnement symbolique et mathématique, en particulier sur des données hors distribution.

Résultats de la recherche

  1. Résultats de la tâche synthétique
    Dans la tâche synthétique, le modèle Transformer à deux couches a démontré une capacité de généralisation hors distribution, tandis que le modèle à une seule couche n’a réalisé qu’un apprentissage faible. Les données expérimentales ont montré que la capacité de généralisation du modèle s’est nettement améliorée pendant la phase d’apprentissage de règles, en particulier pour des séquences répétitives plus longues.

  2. Résultats des expériences sur les IHs
    Dans diverses tâches, la suppression des IHs a considérablement diminué les performances du modèle sur des données hors distribution. Par exemple, dans une tâche de raisonnement symbolique, la suppression des IHs a fait passer la précision du modèle de près de 90% à moins de 50%.

  3. Validation de l’hypothèse de la représentation commune de pont
    Les résultats des expériences ont montré que les IHs et les têtes d’attention précédentes (Previous-Token Heads, PTHs) partagent un sous-espace latent. En alignant ces sous-espaces, le modèle peut généraliser sur des données hors distribution. Cette hypothèse a été confirmée par des expériences de projection de matrices de poids.

Conclusion et signification

La conclusion principale de cet article est que les LLMs réalisent la généralisation hors distribution grâce aux mécanismes de composition, dans lesquels les IHs et les PTHs jouent un rôle clé. L’hypothèse de la représentation commune de pont offre une nouvelle perspective pour comprendre comment les LLMs apprennent des règles et généralisent dans des tâches nouvelles.

Valeur scientifique

  1. Révélations sur les mécanismes de généralisation
    Cette étude révèle comment les LLMs réalisent la généralisation sur des données hors distribution, comblant une lacune dans ce domaine de recherche.

  2. Nouvelle hypothèse proposée
    L’hypothèse de la représentation commune de pont fournit un nouveau cadre théorique pour comprendre les mécanismes de composition des LLMs, facilitant des recherches supplémentaires sur la structure interne des modèles.

  3. Valeur pratique
    Les résultats de cette étude peuvent guider l’amélioration des méthodes d’entraînement et de conception des LLMs, en particulier pour améliorer leurs performances sur des tâches nouvelles.

Points forts de la recherche

  1. Perspective de recherche novatrice
    En se concentrant sur les IHs, cette étude révèle les mécanismes internes de la généralisation hors distribution des LLMs, un domaine peu exploré jusqu’à présent.

  2. Validation expérimentale large
    Non seulement l’étude a été menée sur des tâches synthétiques, mais aussi sur une variété de grands modèles de langage, renforçant la généralité des conclusions.

  3. Innovation théorique
    L’hypothèse de la représentation commune de pont apporte une nouvelle perspective théorique sur la façon dont les LLMs réalisent la généralisation par composition, offrant une valeur académique importante.

Informations supplémentaires de valeur

Le code et les données de cette étude sont disponibles sur GitHub : https://github.com/jiajunsong629/ood-generalization-via-composition. Cela facilite la reproduction et l’extension de cette recherche par d’autres chercheurs.

Résumé

Grâce à une étude approfondie des mécanismes de généralisation hors distribution dans les LLMs, cette recherche révèle le rôle clé des mécanismes de composition dans l’apprentissage de règles et la réalisation de la généralisation par les modèles. Cela non seulement approfondit notre compréhension de la structure interne des LLMs, mais fournit également un soutien théorique important pour l’optimisation future des modèles et de leurs méthodes d’entraînement.