Renforcer les rapports d'imagerie TEP avec des modèles linguistiques augmentés par récupération et une base de données de rapports de lecture : une étude pilote
Application des grands modèles de langage dans les rapports d’imagerie PET : une étude pilote monocentrique combinant un modèle de génération améliorée par la recherche
Avec le développement rapide des technologies d’intelligence artificielle, les capacités d’apprentissage en zéro-shot et de traitement du langage naturel des grands modèles de langage (Large Language Models, ci-après LLM) ont suscité un grand intérêt dans le domaine médical. Bien que les LLM aient montré leur potentiel à améliorer l’efficacité et les résultats dans certains domaines médicaux, leur application en médecine nucléaire, en particulier dans les rapports d’imagerie PET (tomographie par émission de positons), reste en phase d’exploration initiale. Cette étude, dirigée par le Dr Hongyoon Choi et son équipe de l’hôpital de l’Université nationale de Séoul et de la faculté de médecine de l’Université nationale de Séoul en Corée, a été publiée dans l’« European Journal of Nuclear Medicine and Molecular Imaging ».
Contexte de l’étude et problématique
L’imagerie PET est largement utilisée dans divers domaines médicaux, sa valeur clinique résidant dans le diagnostic des maladies, la stadification des pathologies et l’évaluation de l’efficacité des traitements. Cependant, les données produites par l’imagerie PET sont complexes et variées. Leur interprétation manuelle prend du temps, repose sur des jugements subjectifs, et peut manquer de précision. Dans le domaine des rapports d’imagerie nucléaire, de nombreux besoins restent insatisfaits : il manque des outils pour référencer rapidement des cas similaires, soutenir le diagnostic différentiel et fournir des cas exemplaires à des fins éducatives. En outre, bien que des LLM comme ChatGPT aient montré un certain potentiel pour générer des rapports médicaux, ils ne peuvent pas accéder à des bases de données médicales spécifiques, limitant leur capacité à fournir des analyses précises adaptées à un hôpital ou un cas particulier.
Les chercheurs ont donc cherché à exploiter la combinaison d’un modèle de génération améliorée par la recherche (Retrieval-Augmented Generation, RAG) et d’une base de données longitudinales contenant des rapports d’imagerie PET pour évaluer comment les LLM pourraient améliorer la génération de ces rapports et répondre aux besoins cliniques.
Objectifs de l’étude
Cette étude visait à développer et évaluer un cadre personnalisé basé sur RAG pour : 1. Fournir aux experts en diagnostic d’imagerie des références issues de rapports antérieurs, en particulier via la recherche et le résumé de cas similaires. 2. Soutenir l’éducation médicale en facilitant l’accès à des cas d’étude exemplaires. 3. Assister les experts dans les diagnostics différentiels en exploitant les bases de données de rapports existants.
Méthodes et conception de l’architecture
Ensemble de données
L’équipe de recherche a extrait des rapports de diagnostic PET de l’entrepôt de données cliniques de 2010 à 2023, comprenant 118 107 patients et un total de 211 813 cas. Les données incluaient les rapports bruts, les dates d’examens, les types d’examens, le sexe des patients et leur date de naissance (au format année-mois). Toutes les informations ont été anonymisées pour garantir la protection des données des patients. Cette recherche a été approuvée par le comité d’éthique institutionnel (Institutional Review Board, IRB) et le consentement éclairé des patients a été dispensé, étant donné la nature rétrospective de l’étude.
Architecture du système
Les chercheurs ont conçu un chatbot prototype, basé sur l’architecture RAG et comprenant plusieurs modules clés :
Encodage et vectorisation des phrases :
Le modèle “paraphrase-multilingual-MiniLM-L12-v2”, issu de Sentence Transformers, a été utilisé pour transformer les rapports et questions des utilisateurs en représentations vectorielles. Ce modèle est capable de comprendre et de reformuler des textes en plusieurs langues, répondant aux exigences des données bilingues (anglais et coréen).Mécanisme de stockage vectoriel :
La base de données Chroma a été utilisée pour stocker les représentations vectorielles dans un espace recherché efficacement. Des similitudes cosinus entre les vecteurs de requête et les données stockées ont été calculées pour récupérer les cinq textes les plus pertinents servant de base pour générer du contexte.Génération de questions-réponses améliorée par la recherche :
Les textes des rapports récupérés ont été combinés aux questions des utilisateurs pour former un “prompt” complet, qui a ensuite été fourni au modèle LLM pour générer des réponses. À des fins de test, les chercheurs ont utilisé le modèle Llama-3 (doté de 7 milliards de paramètres) dont l’architecture repose sur LangChain.Visualisation des données :
L’algorithme t-SNE (t-distributed Stochastic Neighbor Embedding) a été utilisé pour réduire la dimensionnalité des vecteurs et visualiser les données. Des mots-clés comme “cancer du poumon”, “cancer du sein” ou “lymphome” ont permis de mettre en évidence des regroupements sémantiques significatifs.
Processus expérimental et résultats-clés
Analyse d’embeddings et de groupements
À l’aide des embeddings de phrases, les chercheurs ont converti 211 813 rapports en données vectorielles. Les analyses t-SNE ont montré que les rapports contenant des mots-clés similaires présentaient des regroupements cohérents, reflétant leur similitude sémantique. Par exemple, les rapports mentionnant “cancer du poumon” ont formé des clusters serrés, correspondant à la prévalence élevée de cette pathologie dans la base de données. Des regroupements distincts ont également été observés pour des examens spécifiques, comme le PET à la méthionine C-11 et le PET au PSMA-11 Ga-68. Cela démontre que les embeddings capturent fidèlement les similarités sémantiques, servant de base pour des recherches de cas similaires.
Capacité de recherche et suggestions diagnostiques
Dans des scénarios cliniques simulés, le chatbot a montré une capacité notable à répondre à des requêtes médicales complexes. Par exemple, lorsqu’on lui a demandé d’identifier des cas de cancer du sein avec métastases aux ganglions lymphatiques mammaires internes, il a rapidement localisé des exemples pertinents et fourni des détails-clés, tels que des antécédents des patients. Par ailleurs, face à une description comme “plusieurs ganglions médiastinaux avec fixation au FDG accrue sans site primaire identifié”, le chatbot a fourni une liste de diagnostics différentiels accompagnée de références contextuelles.
Évaluation par des médecins
Trois experts en médecine nucléaire ont évalué la pertinence des réponses du chatbot. Ils ont estimé que 84,2 % des cas récupérés pour des requêtes spécifiques étaient d’une pertinence au moins “moyenne”. De plus, 78,9 % des diagnostics suggérés dépassaient également ce seuil de qualité. Par rapport à un LLM non combiné à RAG, le système enrichi a significativement amélioré l’exactitude des suggestions diagnostiques (test de Wilcoxon, p,05).
Évaluation quantitative
L’utilisation de ROUGE-L, un indicateur basé sur la correspondance de sous-séquences communes, a montré que le modèle RAG surpassait le LLM standard dans la génération de conclusions médicales cohérentes (f-score : 0,16 ± 0,08 contre 0,07 ± 0,03, p,001).
Signification et perspectives futures
Impact scientifique et clinique
Les principaux avantages de cette étude incluent : 1. Valeur pratique : La combinaison de RAG et de bases de données d’imagerie PET riches améliore les flux de travail médicaux en facilitant la génération et la validation de rapports. 2. Impact éducatif : Les capacités du système à référencer et contextualiser des cas similaires soutiennent la formation des étudiants et médecins. 3. Soutien à la prise de décision personnalisée : L’intégration de contextes historiques enrichit le diagnostic et la gestion des patients.
Limites et défis
Bien que prometteur, le système présente des limites, comme une moindre fiabilité pour les cas rares. La conception de bases de données enrichies ou de pondérations adaptées pourrait corriger cela. À l’avenir, intégrer des données multimodales comme des images pourrait renforcer l’utilité et la précision des systèmes RAG.
Conclusion
Cette étude confirme le potentiel transformateur des outils d’IA dans le domaine médical, et notamment en médecine nucléaire. La combinaison d’un cadre RAG et d’une large base de données PET a démontré la faisabilité d’intégrer les LLM dans la routine clinique. Bien qu’il subsiste des défis à relever, l’étude ouvre des perspectives pour l’amélioration des diagnostics, la formation médicale, et la personnalisation des soins.