大语言模型利用电子健康记录中识别健康的社会决定因素
大语言模型利用电子健康记录中识别健康的社会决定因素
背景及研究动机
健康社会决定因素(Social Determinants of Health, SDOH)对患者的健康结果具有重要影响。然而,在电子健康记录(EHR)结构化数据中,这些因素的记录往往不完整或缺失。大语言模型(Large Language Models, LLMs)有望从EHR的叙述性文本中高通量提取SDOH,以支持研究和临床护理。然而,类别不平衡和数据限制为这种稀疏记录的关键信息带来了挑战。本文旨在探讨使用LLMs从EHR叙述性文本中提取六种SDOH类别(就业、住房、交通、父母身份、关系和社会支持)的最佳方法。
研究来源
这项研究由Harvard Medical School的Mass General Brigham人工智能医学(AIM)计划的Marco Guevara、Shan Chen及其他多位合作作者共同完成。相关研究机构还包括Brigham and Women’s Hospital、Dana-Farber Cancer Institute及Boston Children’s Hospital等。论文发表于《npj Digital Medicine》2024年第7卷,并与Seoul National University Bundang Hospital合作发布。
研究流程
研究对象及方法
研究对象:研究对象包括接受放射治疗(RT)的癌症患者电子健康记录中的临床笔记。数据集共包括来自770名患者的800份临床笔记。
数据标注:通过对社会工作者、资源专家和肿瘤学家进行访谈,确定在EHR中临床相关但未作为结构化数据记录的SDOH。最终选定六类SDOH:就业状态(就业、失业、就业不足、退休、残疾、学生)、住房问题(财务状况、无家可归、其他)、交通问题(距离、资源、其他)、父母身份、关系(已婚、伴侣、寡居、离婚、单身)和社会支持(有无社会支持)。数据标注分为两种任务:任何SDOH提及和不利SDOH提及。
数据增强:利用GPT-3.5生成合成数据,提高训练集的多样性和模型性能。
模型开发:利用BERT和Flan-T5模型进行多标签分类任务,其中Flan-T5模型使用了参数高效的LoRA方法进行微调。主模型包括Flan-T5 base、large、xl和xxl模型。
模型评估:通过开发集和测试集评估模型的性能,计算模型在识别任何SDOH提及和不利SDOH提及任务上的宏F1值。
主要实验与研究结果
模型性能:在放射治疗测试集上,对于任何SDOH提及任务,性能最佳的模型为使用合成数据的Flan-T5 xxl(宏F1 0.71);对不利SDOH提及任务,最佳模型为不使用合成数据的Flan-T5 xl(宏F1 0.70)。总体来看,Flan-T5模型优于BERT模型,且性能随模型规模增加而提升。
数据增强效果:使用合成数据增强训练集有助于提升模型性能,尤其是在数据稀缺的类别(如住房、家长、交通方面)中,合成数据通常能显著改善模型的表现。
模型偏倚评估:Flan-T5模型和ChatGPT对包含和不包含人口统计信息的句子对给出了不同的分类结果。然而,Flan-T5模型的偏倚率明显低于ChatGPT。在包含人口统计信息的句子中,ChatGPT在女性和男性描述下,分类改变的比例较大。
与结构化EHR数据的比较:研究发现,通过文本提取的SDOH信息比结构化EHR数据中相关的ICD-10代码更能有效识别含有不利SDOH的患者。
研究亮点及结论
研究亮点:
- 研究展示了大语言模型在提取EHR中的SDOH信息方面的潜能。
- 通过生成并纳入合成数据,提高了ELL模型在稀有SDOH数据类别上的识别性能。
- Flan-T5模型在面对数据稀缺性挑战时,表现优于一些流行的模型家族如ChatGPT,且存在较少的算法偏倚。
意义与价值:
- 研究证明了通过LLMs改进真实世界SDOH数据收集和支持患者资源分配的潜力。
- 提供了新的注释指南以及合成SDOH数据集,供研究社区使用。
- 提出的方法有助于更好地理解健康差异驱动因素,并支持标记可能最能从资源和社会工作干预中受益的患者。
未来研究方向:
- 进一步优化合成数据生成方法以更好地挖掘稀疏记录的临床信息。
- 和其他数据源结合,提高模型的泛化能力。
本研究为利用大语言模型改进EHR中SDOH信息的自动提取提供了新路径,对提高健康数据的利用效率和支持临床决策具有重要意义。更多细节和模型代码可在相关公开资源库中获取,供进一步研究和应用。