Explorer la psychologie du raisonnement moral et juridique des LLM
Aujourd’hui, les grands modèles de langage (LLM) démontrent des performances de niveau expert dans de multiples domaines, suscitant un vif intérêt pour comprendre leurs processus de raisonnement internes. Comprendre comment les LLM produisent ces résultats étonnants est crucial pour le développement futur des agents d’intelligence artificielle et pour s’assurer qu’ils soient alignés avec les valeurs humaines. Cependant, l’architecture des LLM actuels rend difficile l’explication de leurs processus internes. Par conséquent, les chercheurs ont commencé à s’inspirer des méthodes utilisées en psychologie pour explorer les modèles de raisonnement des LLM, donnant naissance à un nouveau domaine de recherche appelé “psychologie des machines”.
Auteurs de l’article Les auteurs de cet article proviennent de différentes institutions : - Guilherme F.C.F. Almeida, Insper Education and Research Institute, Brésil - José Luiz Nunes, Département d’Informatique, Université Catholique de Rio de Janeiro, Brésil ; École de Droit de FGV Rio, Brésil - Neele Engelmann, Université de Bochum, Allemagne ; Centre Homme-Machine, Institut Max Planck pour le Développement Humain, Allemagne - Alex Wiegmann, Université de Bochum, Allemagne - Marcelo de Araújo, Université Fédérale de Rio de Janeiro, Brésil ; Université d’État de Rio de Janeiro, Brésil
Méthodes de recherche : Les auteurs ont utilisé des méthodes de psychologie expérimentale, reproduisant 8 expériences classiques de psychologie et présentant les scénarios expérimentaux aux modèles Gemini Pro de Google, Claude 2.1 d’Anthropic, GPT-4 d’OpenAI et LLama 2 de Meta, tout en collectant leurs réponses. Les expériences reproduites comprenaient :
1) L’effet de simple exposition et l’action intentionnelle 2) Le comportement de tromperie 3) La théorie des fondements moraux 4) Les jugements de violation 5) Le biais de confirmation rétrospective (deux conceptions différentes) 6) Le concept de consentement 7) Les relations causales
En comparant les réponses des LLM à celles des participants humains, les auteurs ont examiné si les LLM réagissaient de manière cohérente avec les humains dans ces tâches impliquant le raisonnement moral et juridique, et ont identifié les différences systématiques.
Principales conclusions : 1) Les LLM ont montré des modèles de réponse similaires aux humains dans la plupart des tâches, mais avec des effets souvent amplifiés.
2) Pour certaines tâches, des différences notables ont été observées entre les différents LLM, certains étant très cohérents avec les réponses humaines, tandis que d’autres présentaient des biais systématiques, suggérant des divergences fondamentales dans leurs processus de raisonnement par rapport aux humains.
3) Les auteurs ont observé un “effet de bonne réponse”, les LLM donnant pratiquement la même réponse à une question, quelle que soit la formulation, avec une très faible variance.
4) Dans l’ensemble, GPT-4 était le modèle le plus aligné avec les réponses humaines.
5) Pour la tâche sur le concept de consentement, tous les modèles ont montré des différences importantes par rapport aux humains, suggérant des déficiences ou des biais dans la compréhension de ce concept juridique et moral crucial par les LLM.
Implications de la recherche : Cette étude a fourni la première évaluation systématique des capacités de raisonnement moral et juridique des LLM. Les résultats montrent que, bien que les LLM actuels puissent simuler les réponses humaines à bien des égards, des différences systématiques subsistent, plus marquées dans certains domaines. Cela suggère que l’alignement des LLM avec les valeurs humaines pourrait être plus difficile qu’anticipé. Cette étude ouvre la voie à de futures recherches approfondies en “psychologie des machines”. Si les logiques sous-jacentes aux raisonnements des LLM peuvent être complètement élucidées et améliorées, cela contribuera à renforcer l’alignement des systèmes d’IA avec les valeurs humaines.