Grands modèles de langage pour identifier les déterminants sociaux de la santé dans les dossiers de santé électroniques

Identification des déterminants sociaux de la santé dans les dossiers de santé électroniques par les grands modèles linguistiques

Contexte et motivation de la recherche

Les déterminants sociaux de la santé (DSH) ont une influence significative sur les résultats de santé des patients. Cependant, dans les données structurées des dossiers de santé électroniques (DSE), ces facteurs sont souvent incomplets ou absents. Les grands modèles linguistiques (GML) ont le potentiel d’extraire à haut débit les DSH à partir des textes narratifs des DSE, soutenant ainsi la recherche et les soins cliniques. Cela dit, le déséquilibre des catégories et les limitations des données posent des défis pour cette extraction d’informations clés rares. Cet article vise à explorer les meilleures méthodes pour extraire six catégories de DSH (emploi, logement, transport, parentalité, relations et soutien social) à partir des textes narratifs des DSE en utilisant des GML.

Sources de la recherche

Cette étude a été réalisée conjointement par Marco Guevara, Shan Chen et plusieurs autres auteurs associés au programme de médecine AI à la Harvard Medical School et à Mass General Brigham. Les institutions de recherche impliquées incluent également Brigham and Women’s Hospital, Dana-Farber Cancer Institute et Boston Children’s Hospital. Cet article est publié dans le volume 7 de npj Digital Medicine en 2024, en collaboration avec Seoul National University Bundang Hospital.

Processus de recherche

Sujets et méthodes de l’étude

  1. Sujets de l’étude : Les sujets de l’étude incluent les notes cliniques des dossiers de santé électroniques des patients cancéreux recevant une radiothérapie (RT). Le jeu de données comprend au total 800 notes cliniques provenant de 770 patients.

  2. Annotation des données : À travers des entretiens avec des travailleurs sociaux, des experts en ressources et des oncologues, nous avons identifié des DSH cliniquement pertinents mais non enregistrés comme données structurées dans les DSE. Six catégories de DSH ont été sélectionnées : statut d’emploi (emploi, chômage, sous-emploi, retraite, invalidité, étudiant), problèmes de logement (situation financière, sans-abri, autres), problèmes de transport (distance, ressources, autres), parentalité, relations (marié, en couple, veuf, divorcé, célibataire) et soutien social (présence ou absence de soutien social). Deux types de tâches d’annotation ont été définies : mention de tout DSH et mention de DSH défavorable.

  3. Augmentation des données : Nous avons utilisé GPT-3.5 pour générer des données synthétiques afin d’augmenter la diversité du jeu de données d’entraînement et d’améliorer les performances du modèle.

  4. Développement du modèle : Nous avons utilisé les modèles BERT et Flan-T5 pour les tâches de classification multi-étiquettes, avec une fine-tuning efficace des paramètres LoRA pour les modèles Flan-T5. Les principaux modèles incluent les versions base, large, xl et xxl de Flan-T5.

  5. Évaluation du modèle : La performance des modèles a été évaluée sur des ensembles de développement et de test, en calculant la valeur F1 macro pour la reconnaissance des tâches de mention de tout DSH et de mention de DSH défavorable.

Principales expériences et résultats de l’étude

  1. Performance du modèle : Sur l’ensemble des tests de radiothérapie, pour la tâche de mention de tout DSH, le meilleur modèle était le Flan-T5 xxl utilisant des données synthétiques (F1 macro 0.71) ; pour la tâche de mention de DSH défavorable, le meilleur était le Flan-T5 xl sans données synthétiques (F1 macro 0.70). Globalement, les modèles Flan-T5 ont surpassé les modèles BERT, avec des performances augmentant en fonction de la taille du modèle.

  2. Effet de l’augmentation des données : L’utilisation de données synthétiques pour augmenter le jeu de données d’entraînement a contribué à améliorer la performance du modèle, en particulier pour les catégories de données rares (comme le logement, la parentalité et le transport), où les données synthétiques ont souvent significativement amélioré les performances du modèle.

  3. Évaluation des biais du modèle : Les modèles Flan-T5 et ChatGPT ont montré des résultats de classification différents lorsque des phrases contenaient ou non des informations démographiques. Cependant, le taux de biais du modèle Flan-T5 était nettement inférieur à celui de ChatGPT. Dans les phrases contenant des informations démographiques, le changement de classification en fonction du genre féminin ou masculin était plus important pour ChatGPT.

  4. Comparaison avec les données structurées des DSE : L’étude a révélé que les informations sur les DSH extraites à partir des textes étaient plus efficaces pour identifier les patients présentant des DSH défavorables par rapport aux codes ICD-10 dans les données structurées des DSE.

Points forts et conclusion de l’étude

  1. Points forts de l’étude :

    • L’étude démontre le potentiel des GML dans l’extraction des informations sur les DSH à partir des DSE.
    • Par la génération et l’inclusion de données synthétiques, elle a amélioré la performance des modèles GML dans les catégories de DSH rares.
    • Les modèles Flan-T5 ont mieux performé face aux défis posés par la rareté des données, surpassant des modèles populaires comme ChatGPT et présentant moins de biais algorithmiques.
  2. Importance et valeur :

    • L’étude prouve le potentiel des GML à améliorer la collecte de données DSH du monde réel et à soutenir la distribution des ressources aux patients.
    • Elle offre de nouvelles lignes directrices d’annotation ainsi qu’un ensemble de données synthétiques sur les DSH pour la communauté de recherche.
    • La méthode proposée aide à mieux comprendre les facteurs influençant les disparités de santé et à identifier les patients qui pourraient bénéficier le plus des ressources et des interventions sociales.
  3. Directions futures de recherche :

    • Optimiser davantage les méthodes de génération de données synthétiques pour mieux exploiter les informations cliniques rares.
    • Intégrer d’autres sources de données pour améliorer la capacité de généralisation des modèles.

Cette étude fournit une nouvelle approche pour utiliser les GML à améliorer l’extraction automatique des informations sur les DSH dans les DSE, ayant une importance majeure pour améliorer l’efficacité de l’utilisation des données de santé et soutenir les décisions cliniques. Plus de détails et le code des modèles peuvent être trouvés dans les ressources publiques disponibles pour des recherches et applications ultérieures.