Capacité des grands modèles linguistiques à traduire les rapports de radiologie en texte libre de CT et IRM en plusieurs langues
Capacité des grands modèles de langage à traduire les rapports radiologiques en texte libre de CT et IRM dans plusieurs langues
Contexte académique
Dans un monde globalisé, la mobilité accrue des patients fait que les rapports radiologiques, essentiels pour le diagnostic et la gestion des maladies, doivent souvent être traduits dans différentes langues. Cependant, les barrières linguistiques peuvent entraver l’utilisation efficace de ces rapports, affectant ainsi la gestion rapide et précise des patients. Avec l’essor de la télémédecine, les patients cherchent de plus en plus des consultations d’experts à distance ou des secondes opinions, ce qui accentue le défi des barrières linguistiques. Sans traduction précise, ces rapports peuvent être mal interprétés ou négligés, entraînant des retards de diagnostic et des erreurs potentielles.
Comme les traducteurs humains spécialisés en imagerie médicale ne sont pas toujours disponibles, les modèles basés sur l’intelligence artificielle, en particulier les grands modèles de langage (LLMs), offrent une alternative prometteuse. Bien que ces modèles aient été initialement conçus pour des tâches de traitement linguistique général, ils ont montré des résultats encourageants dans des applications telles que la traduction. Cependant, la capacité des LLMs à traduire des rapports radiologiques reste largement inexplorée, en particulier pour les langues à ressources limitées, où les modèles existants présentent souvent des biais, car ils sont principalement entraînés sur des données en anglais.
Objectif de l’étude
Cette étude vise à évaluer la précision et la qualité de divers LLMs dans la traduction de rapports radiologiques, couvrant des langues à ressources élevées (comme l’anglais, l’italien, le français, l’allemand et le chinois) et des langues à ressources limitées (comme le suédois, le turc, le russe, le grec et le thaï).
Méthodologie de l’étude
Jeu de données et processus de traduction
L’étude a utilisé 100 rapports radiologiques synthétiques en texte libre de CT et IRM, traduits entre le 14 janvier et le 2 mai 2024 par 18 radiologues dans 9 langues cibles. Le processus de traduction a impliqué 10 LLMs, dont GPT-4 (OpenAI), Llama 3 (Meta) et les modèles Mixtral (Mistral AI). La précision et la qualité des traductions ont été évaluées à l’aide de métriques telles que le score BLEU (Bilingual Evaluation Understudy), le taux d’erreur de traduction (TER) et le score F au niveau des caractères (CHRF++). La signification statistique a été évaluée à l’aide de tests t appariés avec correction de Holm-Bonferroni. De plus, les radiologues ont effectué une évaluation qualitative des traductions à l’aide d’un questionnaire standardisé.
Évaluation quantitative
L’évaluation quantitative a utilisé trois métriques linguistiques largement utilisées : le score BLEU, le TER et le CHRF++. Le score BLEU mesure la similarité entre la traduction et la traduction humaine, un score plus élevé indiquant une meilleure précision. Le TER mesure le nombre de modifications nécessaires pour convertir une traduction automatique en une traduction de référence, un TER plus bas indiquant une meilleure qualité de traduction. Le CHRF++ évalue la similarité des n-grammes au niveau des caractères et des mots, un score plus élevé indiquant une meilleure correspondance avec la traduction de référence.
Évaluation qualitative
L’évaluation qualitative a été réalisée à l’aide d’un questionnaire structuré, évaluant des critères tels que la précision des termes médicaux, l’adéquation à l’usage clinique, la clarté et la lisibilité, la cohérence avec le sens original, ainsi que la grammaire et la syntaxe. Chaque critère a été noté sur une échelle de Likert de 1 à 5, 1 indiquant une performance médiocre et 5 une performance excellente.
Résultats de l’étude
Résultats de l’évaluation quantitative
GPT-4 a montré la meilleure qualité globale de traduction dans plusieurs langues, en particulier pour les traductions de l’anglais vers l’allemand, le grec, le thaï et le turc. GPT-3.5 a montré la plus grande précision dans les traductions de l’anglais vers le français, tandis que Qwen1.5 a excellé dans les traductions de l’anglais vers le chinois. Mixtral 8x22b a obtenu les meilleurs résultats pour les traductions de l’italien vers l’anglais.
Résultats de l’évaluation qualitative
L’évaluation qualitative a révélé que les LLMs excellaient en termes de clarté, de lisibilité et de cohérence avec le sens original, mais montraient une précision modérée dans les termes médicaux.
Conclusion
Les LLMs ont démontré une précision et une qualité élevées dans la traduction des rapports radiologiques, bien que les résultats varient selon le modèle et la paire de langues. GPT-4 a obtenu les meilleurs résultats dans plusieurs langues, tandis que d’autres modèles comme GPT-3.5 et Mixtral 8x22b ont également excellé dans certaines paires de langues. Cependant, aucun modèle ne s’est avéré universellement applicable à toutes les paires de langues, en particulier pour les langues à ressources limitées, où la qualité de la traduction reste à améliorer.
Points forts de l’étude
- Découverte majeure : GPT-4 a montré la meilleure qualité de traduction dans plusieurs paires de langues, en particulier pour les langues à ressources élevées.
- Innovation méthodologique : Cette étude est la première à évaluer systématiquement les performances des LLMs dans la traduction de rapports radiologiques, couvrant à la fois les langues à ressources élevées et limitées.
- Valeur applicative : Les résultats montrent que les LLMs ont un potentiel important dans la traduction de rapports médicaux, en particulier en l’absence de traducteurs humains, et peuvent soutenir les soins de santé à l’échelle mondiale.
Signification de l’étude
Cette étude fournit des données empiriques importantes sur l’application des LLMs dans le domaine de la traduction médicale, en particulier pour les rapports radiologiques multilingues. Les résultats soulignent la nécessité de développer et d’optimiser davantage les LLMs, en particulier pour améliorer la qualité des traductions dans les langues à ressources limitées et la précision des termes médicaux. De plus, l’étude offre des références pour le développement futur d’outils de traduction médicale multilingues.
Auteurs et institutions
Cette étude a été réalisée par une équipe d’experts de plusieurs institutions internationales, dont les principaux auteurs sont Aymen Meddeb, Sophia Lüken, Felix Busch, entre autres. L’équipe de recherche provient d’institutions renommées telles que la Charité–Universitätsmedizin Berlin, la Technical University of Munich et l’Université de Naples Federico II. L’article a été publié en décembre 2024 dans la revue Radiology.
Références
L’étude cite plusieurs articles pertinents, y compris des recherches sur l’application des LLMs dans la traduction médicale, les défis de la traduction multilingue et la traduction structurée des rapports radiologiques. Ces références fournissent un soutien théorique et des connaissances de base pour l’étude.
Partage des données
Les données générées ou analysées au cours de l’étude sont disponibles sur demande auprès de l’auteur correspondant.
Déclaration de conflits d’intérêts
Tous les auteurs déclarent n’avoir aucun conflit d’intérêts pertinent.
Grâce à cette étude, nous avons non seulement validé le potentiel des LLMs dans la traduction des rapports radiologiques, mais nous avons également fourni des références importantes pour le développement futur d’outils de traduction médicale multilingues.