Généralisation hors distribution par composition : une perspective à travers les têtes d'induction dans les transformateurs
Étude sur la généralisation hors distribution et les mécanismes de composition dans les grands modèles de langage Contexte du papier Ces dernières années, les grands modèles de langage (Large Language Models, LLMs) comme GPT-4 ont montré une créativité étonnante dans la résolution de tâches nouvelles, en étant souvent capables de résoudre des probl...