Acquérir et modéliser les connaissances de sens commun abstrait via la conceptualisation

Introduction

Le manque de connaissances de sens commun des systèmes d’intelligence artificielle a longtemps été l’un des principaux goulots d’étranglement entravant le développement de ce domaine. Bien que des progrès considérables aient été réalisés ces dernières années grâce aux modèles de langue neuronaux et aux graphes de connaissances de sens commun, la “conceptualisation”, composante clé de l’intelligence humaine, n’a pas été bien reflétée dans les systèmes d’IA. Les humains acquièrent et comprennent les innombrables entités et situations du monde en conceptualisant des choses ou des situations concrètes en concepts abstraits et en raisonnant sur cette base. Cependant, les graphes de connaissances limités ne peuvent couvrir la myriade d’entités et de situations du monde réel, sans parler des relations et des inférences entre elles.

Cette recherche explore en profondeur le rôle de la conceptualisation dans le raisonnement de sens commun et construit un cadre pour simuler le processus d’induction conceptuelle humaine : extraire des connaissances d’événements liés aux concepts abstraits à partir des graphes de connaissances de sens commun existants, ainsi que des triplets ou des raisonnements de plus haut niveau sur ces concepts abstraits. Le cadre identifie d’abord les instances d’événements dans le graphe de connaissances de sens commun ATOMIC et les conceptualise, en utilisant des modèles de langage et des règles heuristiques pour générer des événements abstraits et des triplets abstraits représentant des concepts abstraits. Les chercheurs ont construit un vaste ensemble de données annoté manuellement pour superviser l’entraînement des modèles de réseaux neuronaux correspondants, construisant ainsi un vaste “graphe de connaissances abstraites” appelé “Abstract ATOMIC” sur la base d’ATOMIC. Les résultats expérimentaux montrent que l’intégration de ce graphe de connaissances abstraites dans les modèles de sens commun existants peut améliorer de manière significative les performances des tâches en aval telles que le raisonnement de sens commun et les questions-réponses à zéro exemple.

Contexte de la recherche

La forme représentative des connaissances de sens commun existantes est les graphes de connaissances de sens commun centrés sur les événements, dont les nœuds sont représentés sous forme de texte en langage naturel. ATOMIC en est un exemple typique, contenant de nombreux triplets de connaissances annotés manuellement sur les situations quotidiennes et leurs causes et conséquences.

Bien que massif, le graphe de connaissances limité ne peut toujours pas couvrir les innombrables entités et situations du monde réel. Les chercheurs pensent que les humains s’appuient sur la “conceptualisation” pour acquérir ces connaissances de sens commun. En conceptualisant chaque expérience concrète en concepts abstraits et en les reliant, nous capturons le sens commun du monde réel afin de pouvoir comprendre de nouvelles instances. Les concepts sont le liant qui connecte notre monde mental, et un système intelligent dépourvu de concepts ne pourra pas comprendre complètement ce monde. Cependant, reproduire ce processus d’induction conceptuelle humaine n’est pas une tâche facile, nécessitant de traiter la flexibilité inhérente du langage, les relations plusieurs-à-plusieurs entre entités/événements et concepts, ainsi que les biais de reporting.

Cette recherche vise à acquérir et modéliser des connaissances de sens commun abstraites à partir de graphes de connaissances de sens commun basés sur des textes et de relations hiérarchiques conceptuelles, en utilisant des modèles de langue neuronaux et des méthodes basées sur des règles. Le processus de conceptualisation a été modélisé à trois niveaux : 1) identifier les entités/événements dans les événements et les conceptualiser en concepts ; 2) construire des événements abstraits basés sur les concepts ; 3) valider la typicalité des inférences (triplets abstraits) pour les événements abstraits.

Méthodologie de recherche

Les chercheurs ont d’abord utilisé des règles heuristiques et des modèles de langage pour identifier et conceptualiser les entités et événements dans les événements ATOMIC, générant des candidats pour les événements abstraits. Pour assurer la qualité, ils ont annoté manuellement de vastes ensembles de données de conceptualisation d’événements et de triplets pour superviser l’entraînement de modèles de réseaux neuronaux tels que le validateur de conceptualisation et le validateur d’inférence. Le processus comprenait :

1) Identification : Concevoir des règles heuristiques utilisant des fonctionnalités syntaxiques et sémantiques pour identifier les entités et événements dans les événements comme candidats à la conceptualisation.

2) Conceptualisation : Générer des candidats de concepts par deux voies - un générateur de concepts basé sur le modèle de langue prédisant directement les concepts ; les règles heuristiques reliant les candidats aux concepts dans la hiérarchie conceptuelle. Tous les candidats de concepts doivent passer par un filtre de validateur de conceptualisation pour former des événements abstraits.

3) Validation d’inférence : Valider les triplets d’instance de chaque événement abstrait pour déterminer quelles inférences sont généralement valables pour ce type d’événement, formant ainsi des triplets abstraits.

4) Instanciation : Conceptualiser tout nouvel événement apparu et raisonner dessus en se basant sur les triplets abstraits correspondants.

À travers ce processus, les chercheurs ont construit une vaste base de connaissances “Abstract ATOMIC” contenant 70 000 événements abstraits et 2,95 millions de triplets abstraits sur la base d’ATOMIC.

Évaluation des applications

Les chercheurs ont évalué les performances en aval après avoir intégré ce graphe de connaissances abstraites dans les modèles de sens commun existants :

1) Modélisation du sens commun : Intégrer les connaissances abstraites dans l’entraînement de modèles de langue causaux tels que COMET améliore de manière significative les performances du modèle sur le jeu de données ATOMIC.

2) Questions-réponses de sens commun sans exemple : Intégrer les connaissances abstraites dans la formation de paires de questions-réponses synthétiques améliore de manière significative les performances des grands modèles commerciaux (comme DeBERTa) sur plusieurs benchmarks de QA de sens commun, avec une augmentation moyenne de 1,4%, dépassant CHATGPT.

3) Transfert vers ConceptNet : Des tentatives préliminaires montrent que le générateur de concepts basé sur les modèles de langage construit peut être appliqué avec succès à d’autres bases de connaissances de sens commun telles que ConceptNet.

Cette étude aborde systématiquement le problème de l’introduction de la conceptualisation dans la modélisation et le raisonnement du sens commun, propose un processus pour acquérir des connaissances de sens commun abstraites, et prouve que leur intégration dans les systèmes existants peut considérablement améliorer les performances, ouvrant la voie à une meilleure capacité de raisonnement de sens commun pour les systèmes d’IA.