Atténuation des biais sociaux des modèles de langue pré-entraînés via un auto-désanoblissement contrastif avec une double augmentation de données

Introduction : Actuellement, les modèles de langue pré-entraînés (PLM) sont largement utilisés dans le domaine du traitement du langage naturel, mais ils ont le problème d’hériter et d’amplifier les préjugés sociaux présents dans les données d’entraînement. Les préjugés sociaux peuvent entraîner des risques imprévisibles lors de l’application réell...

Un paradigme unifié basé sur la dynamique de SGD décentralisé pour les modèles non convexes et les données hétérogènes

Un paradigme de moment unifié pour résoudre les problèmes SGD décentralisés sous des modèles non convexes et des environnements de données hétérogènes Introduction Ces dernières années, avec l’émergence de l’Internet des objets et de l’informatique edge, l’apprentissage machine distribué a connu un développement rapide, en particulier le paradigme ...

Acquérir et modéliser les connaissances de sens commun abstrait via la conceptualisation

Introduction Le manque de connaissances de sens commun des systèmes d’intelligence artificielle a longtemps été l’un des principaux goulots d’étranglement entravant le développement de ce domaine. Bien que des progrès considérables aient été réalisés ces dernières années grâce aux modèles de langue neuronaux et aux graphes de connaissances de sens ...

Une représentation multi-graphique pour l'extraction d'événements

Introduction: L’extraction d’événements est une tâche populaire dans le domaine du traitement du langage naturel, visant à identifier les mots déclencheurs d’événements et leurs arguments associés à partir d’un texte donné. Cette tâche est généralement divisée en deux sous-tâches: la détection d’événements (extraction des mots déclencheurs d’événem...

Un cadre d'architecture cognitive neurosymbolique pour gérer les nouveautés dans les mondes ouverts

Un cadre d'architecture cognitive neurosymbolique pour gérer les nouveautés dans les mondes ouverts

Un cadre d’architecture cognitive neuronale-symbolique pour traiter les nouveautés dans un monde ouvert Contexte de l’article La recherche traditionnelle en intelligence artificielle suppose que les agents intelligents fonctionnent dans un “monde fermé”, où tous les concepts pertinents pour la tâche sont connus, sans rencontrer de nouvelles situati...

Apprentissage de la dynamique spatio-temporelle sur les réseaux de mobilité pour l'adaptation aux événements de monde ouvert

Apprentissage des dynamiques spatio-temporelles des réseaux mobiles pour s’adapter aux événements du monde ouvert Contexte de la recherche Le système de services de mobilité (Mobility-as-a-Service, MaaS) de la société moderne est une intégration transparente de divers modes de transport (transports publics, véhicules de location, vélos partagés, et...

Représentation sécante hyperbolique de la fonction logistique : Application à l'apprentissage probabiliste d'instances multiples pour la détection d'hémorragie intracranienne CT

Le domaine de l’intelligence artificielle a toujours été confronté au problème de “l’apprentissage faiblement supervisé”, où seule une partie des annotations sont observables dans les données d’entraînement, le reste des annotations étant inconnu. L’apprentissage multi-instances (Multiple Instance Learning, MIL) est un paradigme visant à résoudre c...

Étude des propriétés des représentations de réseaux neuronaux dans l'apprentissage par renforcement

Étude des propriétés des représentations de réseaux neuronaux dans l'apprentissage par renforcement

Les méthodes d’apprentissage de représentation traditionnelles conçoivent généralement une architecture de fonctions de base fixe afin d’obtenir les propriétés souhaitées, comme l’orthogonalité ou la parcimonie. L’idée de l’apprentissage profond par renforcement est que le concepteur ne doit pas coder les propriétés de la représentation mais plutôt...

Observations critiques dans le diagnostic à base de modèles

Dans le diagnostic de panne piloté par modèle, il est très précieux de pouvoir identifier les données d’observation clés qui conduisent à des anomalies du système. Cet article présente un cadre et un algorithme pour identifier les données d’observation clés. Ce cadre détermine quelles observations sont cruciales pour le résultat du diagnostic en ab...

Passage de messages polarisés dans les réseaux neuronaux de graphes

Passage de messages polarisés dans les réseaux neuronaux de graphes

Avec l’application généralisée des données de structures de graphes dans de nombreux domaines, les réseaux neuronaux de graphes (GNN) en tant qu’outil puissant pour analyser les données de graphes ont suscité beaucoup d’attention. Cependant, les GNN existants s’appuient principalement sur les informations de similarité des nœuds voisins lors de l’a...