Extraction de Relations Biomédicales avec des Recommandations Basées sur des Graphes de Connaissance

Rapport de recherche sur la combinaison de l’extraction des relations médicales et des systèmes de recommandation basés sur les graphes de connaissances

Introduction

Dans le domaine médical, la croissance exponentielle de la littérature rend difficile pour les chercheurs de suivre en temps opportun les derniers développements dans leurs domaines respectifs. Du point de vue du traitement automatique du langage naturel (NLP), les outils automatisés en constante évolution peuvent aider à identifier et extraire les informations pertinentes des textes non structurés, cette tâche étant connue sous le nom d’extraction de relations (Relation Extraction, RE). Le principal objectif de la RE est d’extraire et de classifier les relations entre les entités médicales dans les textes, pour améliorer notre compréhension des processus biomédicaux.

Actuellement, la plupart des systèmes RE médicaux de pointe utilisent des méthodes d’apprentissage profond, principalement pour les relations entre des entités du même type, comme les gènes et les médicaments. Cependant, ces systèmes se limitent souvent à extraire des informations directement à partir des textes, ignorant les bases de connaissances spécifiques au domaine, comme les ontologies, qui sont souvent structurées sous forme de graphes acycliques dirigés (Directed Acyclic Graphs, DAG).

D’autre part, les systèmes de recommandation basés sur les graphes de connaissances (KG) ont démontré l’importance d’intégrer des caractéristiques supplémentaires provenant des KG dans les informations sur les éléments pour améliorer l’efficacité de la recommandation. Généralement, les utilisateurs de ces systèmes sont des êtres humains, recommandant des éléments tels que des films, des livres, etc. Ce travail propose d’intégrer les KG dans la RE médicale via un modèle de recommandation, afin d’étendre davantage son application.

Introduction aux sources

Cet article intitulé “Biomedical Relation Extraction with Knowledge Graph-Based Recommendations” est rédigé par Diana Sousa et Francisco M. Couto, affiliés à l’unité de recherche Lasige de l’Université de Lisbonne (Universidade de Lisboa). Cet article est publié dans le volume 26, numéro 8 du journal “IEEE Journal of Biomedical and Health Informatics” en août 2022.

Processus de recherche

Cet article décrit une recherche unique et originale étudiant comment les systèmes RE médicaux peuvent intégrer des systèmes de recommandation basés sur les KG.

Processus de recherche

Préparation des ensembles de données

La recherche a d’abord converti trois ensembles de données RE publics en un format d’ensemble de données compatible avec les systèmes de recommandation KG : paires utilisateur-élément-score. Les ensembles de données choisis incluent PGR-Crowd (comprenant des relations entre phénotypes humains et gènes), le corpus DDI (comprenant des relations entre médicaments/substances chimiques) et le corpus BC5CDR (comprenant des interactions entre médicaments/substances chimiques et maladies).

Dans l’ensemble de données PGR-Crowd, les utilisateurs sont les gènes et les éléments sont les phénotypes humains ; dans BC5CDR, les utilisateurs sont les médicaments/substances chimiques et les éléments sont les maladies ; pour DDI Corpus, en raison des relations impliquant des entités de même type, les utilisateurs et les éléments ont été déterminés en vérifiant la symétrie des relations. Chaque paire utilisateur-élément se voit attribuer une score, 1 indiquant une relation vraie et -1 une relation fausse.

Entraînement des modèles

  1. Modèle d’apprentissage profond Biont : Ce modèle utilise des sources de connaissances externes (comme les ontologies) comme couche d’information, renforçant le modèle d’apprentissage profond standard. L’entraînement se fait via l’algorithme d’optimisation de descente de gradient stochastique, calculant la fonction de perte et ajustant les poids. Les principaux hyperparamètres incluent le taux d’apprentissage, la perte catégorielle croisée (Categorical Cross-Entropy) et le taux de dropout des différentes couches.

  2. Modèle de recommandation basé sur les graphes de connaissances TUP : Ce modèle génère un score de pertinence pour une paire utilisateur-élément, indiquant si l’utilisateur aime l’élément. Il utilise des politiques souples combinant plusieurs préférences, proposant des recommandations à partir des graphes de connaissances via un mécanisme d’attention à préférences multiples, optimisé avec la fonction de perte BPR.

  3. Modèle combiné K-Biont : Combinaison des modèles Biont et TUP, utilisant le modèle d’apprentissage profond pour extraire les relations, puis le modèle de recommandation pour fournir des informations supplémentaires. L’analyse de la matrice de confiance permet de s’appuyer principalement sur les relations proposées par le module de recommandation en cas de divergence entre les étiquettes générées par le modèle et le module de recommandation.

Résultats de la recherche

Modèle d’apprentissage profond

L’application des trois ensembles de données (PGR-Crowd, DDI Corpus, BC5CDR Corpus) aux modèles d’apprentissage profond Biont et BioBERT montre que Biont et BioBERT ont des performances similaires sur l’ensemble PGR-Crowd, mais que BioBERT surpasse Biont sur le corpus DDI, probablement en raison des problèmes de compatibilité de l’ontologie Chebi dans Biont.

Modèle de recommandation basé sur les graphes de connaissances

Le modèle TUP ajusté utilise une stratégie de recommandation souple. Malgré des problèmes de sparsité des données, il montre de bonnes performances de recommandation sur l’ensemble de données PGR-Crowd. La totalité des entités des éléments dans le PGR-Crowd étant liées à l’ontologie HPO, le module de recommandation montre une amélioration significative.

Évaluation du modèle combiné

L’évaluation combinée montre que les performances du modèle K-Biont s’améliorent avec le nombre de recommandations pour les ensembles PGR-Crowd et BC5CDR. Aucune amélioration notable n’a été observée pour le corpus DDI, en raison de la faible couverture des entités des éléments, limitant ainsi l’efficacité du module de recommandation dans ce contexte.

Conclusion de la recherche et valeur applicative

Cette recherche propose une nouvelle direction pour combiner les modèles d’apprentissage profond avec les systèmes de recommandation basés sur les KG dans la RE médicale. En intégrant les connaissances existantes des KG dans la RE médicale, le modèle a amélioré sa capacité à identifier des relations rares. Bien que la couverture actuelle des KG reste un facteur limitant, le module de recommandation a tout de même amélioré les performances du système RE.

La recherche montre que, lorsque la couverture des ontologies est suffisante, les recommandations basées sur les graphes de connaissances peuvent compléter efficacement les modèles d’apprentissage profond, en découvrant des relations réelles non identifiées par les modèles d’apprentissage profond.

Points forts de la recherche

  • Innovation : Première intégration d’un système de recommandation basé sur les KG dans la RE médicale, montrant une nouvelle méthode pour améliorer les systèmes RE.
  • Praticité : Le système de recommandation peut compléter les lacunes des modèles d’apprentissage profond, en particulier dans les domaines de connaissances rares.
  • Vaste potentiel : À l’avenir, il peut être étendu pour inclure plus de types de relations et de connexions entre diverses ontologies, améliorant ainsi l’applicabilité générale des systèmes de recommandation.

Autres informations de valeur

Les recherches futures peuvent explorer l’intégration de multiples types de relations dans les KG et tester plus d’ontologies biomédicales, pour améliorer la couverture des KG. En combinant les technologies des KG, on peut améliorer la fiabilité des recommandations, apportant ainsi plus de valeur aux systèmes RE médicaux.

Références

L’article contient une riche bibliographie couvrant de nombreux domaines, y compris les graphes de connaissances, l’apprentissage profond et le traitement de l’information médicale, fournissant une base théorique solide pour la recherche. Certaines parties méritent une attention particulière, telles que : - Les avancées récentes des ontologies médicales comme HPO, Chebi, DO, etc. - Le développement des systèmes de recommandation basés sur les graphes de connaissances et leur application dans le domaine biomédical. - Les dernières recherches en méthodes d’apprentissage profond pour l’extraction des relations.

À travers cette recherche, il est prévisible que dans les futures applications de traitement de l’information médicale, la combinaison des graphes de connaissances et de l’apprentissage profond deviendra un nouvel axe de percée, améliorant encore la précision et la complétude de l’extraction des informations.