Transformateur de Sujet Graphique Amélioré par la Connaissance pour la Résumé de Texte Biomédical Explicable

Application de Transformer Thématique Renforcé par la Connaissance dans le Résumé Explicable de Textes Biomédicaux

Contexte de la Recherche

Avec l’augmentation continue du volume de publications biomédicales, la tâche de résumé automatique des textes biomédicaux devient de plus en plus importante. En 2021, rien que dans la base de données PubMed, 1 767 637 articles ont été publiés. Bien que les méthodes de résumé basées sur les modèles de langage pré-entraînés (Pre-trained Language Models, PLMs) aient amélioré les performances des résumés, elles présentent des limites significatives concernant la capture des connaissances spécifiques au domaine et l’explicabilité des résultats. Cela peut entraîner des résumés générés manquant de cohérence, incluant des phrases redondantes ou omettant des connaissances importantes du domaine. De plus, la nature de boîte noire des modèles de transformateurs rend difficile pour les utilisateurs de comprendre la raison et la manière de la génération des résumés. Par conséquent, dans le résumé de textes biomédicaux, il est crucial d’incorporer des connaissances spécifiques au domaine et d’assurer l’explicabilité pour améliorer l’exactitude et la transparence.

Origine de la Recherche

L’article a été rédigé par Qianqian Xie, Prayag Tiwari (membre senior IEEE) et Sophia Ananiadou, appartenant respectivement au Département d’informatique de l’Université de Manchester, à l’École de technologie de l’information de l’Université de Halmstad et au Centre national d’extraction de texte de Manchester. Cette recherche a été publiée dans le volume d’avril 2024 (volume 28, numéro 4) du « IEEE Journal of Biomedical and Health Informatics ».

Contenu de la Recherche

Processus Méthodologique

Cet article propose un nouveau Transformer Thématique Renforcé par la Connaissance pour le Domaine (Domain Knowledge-Enhanced Graph Topic Transformer, appelé DORIS) pour un résumé explicable des textes biomédicaux. Le modèle DORIS intègre le modèle thématique par réseau de neurones graphiques (Graph Neural Topic Model) et le Système de Langage Médical Unifié (Unified Medical Language System, UMLS) dans un modèle de langage pré-entraîné basé sur un transformateur.

a) Détails du Processus de Recherche

La recherche comprend les étapes suivantes : 1. Encodeur renforcé par la connaissance : Utilisation des PLMs comme BERT pour encoder les documents et résumés d’entrée, obtenant les représentations contextuelles des phrases. Introduction des réseaux de convolution de graphes (GCN) et des réseaux d’attention de graphes (GAT) pour modéliser les relations sémantiques entre mots et phrases. 2. Construction du graphique : Utilisation de l’UMLS pour générer des graphes de relation des mots et des phrases, et pour obtenir la similarité entre entités biomédicales via SapBERT. 3. Génération de la représentation thématique : Utilisation de GCN pour générer la distribution des mots thématiques à partir du graphe de relation des mots. Enrichissement de la représentation des phrases basées sur le graphe de relation des phrases utilisant GAT. 4. Fusion de la connaissance du domaine : Combinaison des représentations thématiques des documents et des phrases lors de l’extraction de résumé et de l’inférence thématique. Finalement, sélection des phrases importantes par un classificateur de phrases pour former le résumé.

b) Principaux Résultats

Les résultats expérimentaux montrent que cette méthode surpasse les méthodes de résumé existantes à base de PLM sur quatre jeux de données de littérature biomédicale. Plus précisément, DORIS utilise le modèle thématique par réseau de neurones graphiques lors de la génération de résumés, rendant le modèle explicable, permettant aux utilisateurs de comprendre pourquoi certaines phrases sont sélectionnées. De plus, l’intégration de connaissances spécifiques au domaine permet au modèle de mieux identifier et générer des thèmes cohérents, améliorant ainsi la qualité des résumés.

Jeux de Données et Expériences

Les expériences ont été menées sur quatre jeux de données différents de littérature biomédicale, comprenant CORD-19, PubMed-Long, PubMed-Short et S2ORC. La qualité des résumés générés a été évaluée en comparant les scores ROUGE entre les résumés générés et les résumés de référence. Les expériences ont également évalué la sensibilité des paramètres et l’explicabilité du modèle, en calculant la cohérence thématique et les mots thématiques pertinents pour les phrases, validant ainsi l’explicabilité du modèle.

Analyse des Résultats

Les résultats de la recherche montrent clairement que la méthode DORIS surpasse de manière significative les méthodes existantes pour générer des résumés biomédicaux explicables et précis. L’utilisation des réseaux de neurones graphiques fusionnés avec des connaissances spécifiques au domaine permet au modèle de mieux comprendre et distinguer les informations spécifiques du domaine biomédical, générant ainsi des thèmes plus cohérents et pertinents.

Conclusion et Signification

La proposition de la méthode DORIS améliore non seulement l’exactitude et la cohérence des résumés de textes biomédicaux, mais en intégrant des connaissances spécifiques au domaine et un modèle thématique par réseau de neurones graphiques, elle réalise l’explicabilité des résultats de résumé. Cela est crucial pour que les utilisateurs (comme les cliniciens) comprennent et fassent confiance aux résumés générés par la machine. Les directions futures de la recherche incluent l’application de ce cadre explicatif aux résumés abstraits de textes biomédicaux et de résumés multi-documents, ainsi que son extension aux ensembles de données de notes cliniques.