電子健康記録における健康の社会的決定要因を識別するための大規模言語モデル

大規模言語モデルによる電子健康記録中の健康の社会的決定要因の識別

背景と研究の動機

健康の社会的決定要因(Social Determinants of Health, SDOH)は患者の健康結果に重要な影響を与えます。しかし、電子健康記録(EHR)の構造化データにおいて、これらの要因の記録はしばしば不完全または欠落しています。大規模言語モデル(Large Language Models, LLMs)はEHRの叙述的なテキストからSDOHを高通量で抽出し、研究や臨床ケアを支援することが期待されています。しかし、カテゴリの不均衡やデータの制約が、このまばらな記録の重要な情報に挑戦をもたらします。本稿では、LLMsを用いてEHRの叙述的テキストから6種類のSDOHカテゴリ(雇用、住居、交通、親の身分、関係および社会支援)を抽出する最良の方法を探ることを目指します。

研究の出典

本研究は、Harvard Medical SchoolのMass General Brigham人工知能医学(AIM)プログラムのMarco Guevara、Shan Chenおよび他の多くの共同著者によって行われました。関連する研究機関には、Brigham and Women’s Hospital、Dana-Farber Cancer InstituteおよびBoston Children’s Hospitalなどが含まれています。論文は《npj Digital Medicine》2024年第7巻に掲載され、Seoul National University Bundang Hospitalとも共同で発表されました。

研究フロー

研究対象と方法

  1. 研究対象:研究対象は放射線治療(RT)を受けた癌患者の電子健康記録中の臨床ノートです。データセットは770名の患者からの800件の臨床ノートを含みます。

  2. データのアノテーション:社会福祉士、リソーススペシャリストおよび腫瘍学者へのインタビューを通じて、EHR中の臨床関連であるが構造化データとして記録されていないSDOHを特定しました。最終的に6つのSDOHカテゴリを選定しました:雇用状態(雇用、失業、不完全雇用、退職、障害、学生)、住居の問題(財政状況、ホームレス、その他)、交通の問題(距離、リソース、その他)、親の身分、関係(既婚、パートナー、未亡人、離婚、独身)および社会支援(社会支援の有無)。データのアノテーションは2つのタスクに分けました:任意のSDOH言及および不利なSDOH言及。

  3. データ拡張:GPT-3.5を利用して合成データを生成し、トレーニングセットの多様性とモデルの性能を向上させました。

  4. モデル開発:BERTおよびFlan-T5モデルを利用して多ラベル分類タスクを実行し、Flan-T5モデルはパラメータ効率の良いLoRA方法を使用して微調整されました。主なモデルにはFlan-T5 base、large、xlおよびxxlモデルが含まれます。

  5. モデル評価:開発セットおよびテストセットを通じてモデルの性能を評価し、任意のSDOH言及および不利なSDOH言及タスクにおけるMacro F1スコアを算出しました。

主な実験と研究結果

  1. モデルの性能:放射線治療テストセットでは、任意のSDOH言及タスクにおいて、合成データを使用したFlan-T5 xxlモデルが最も高い性能(Macro F1 0.71)を示しました。不利なSDOH言及タスクでは、合成データを使用しないFlan-T5 xlモデルが最も遅れをとりました(Macro F1 0.70)。総じて、Flan-T5モデルはBERTモデルより優れ、モデルのサイズが増加するにつれて性能も向上しました。

  2. データ拡張の効果:合成データを使用してトレーニングセットを強化することはモデルの性能向上に寄与し、特にデータが稀少なカテゴリ(住居、親の身分、交通など)において、合成データはモデルの性能を顕著に向上させました。

  3. モデルのバイアス評価:Flan-T5モデルとChatGPTは、人口統計情報を含むか含まないかに関して異なる分類結果を示しました。しかし、Flan-T5モデルのバイアス率はChatGPTよりも明らかに低く、特に女性と男性の記述に関して、ChatGPTは分類の変更率が高かったです。

  4. 構造化EHRデータとの比較:研究では、テキスト抽出によるSDOH情報が、構造化EHRデータ中の関連ICD-10コードよりも不利なSDOHを含む患者の識別に効果的であることが分かりました。

研究の要点と結論

  1. 研究の要点

    • 研究はEHRからSDOH情報を抽出する際の大規模言語モデルの潜在能力を示しました。
    • 合成データ生成を通じて稀少なSDOHデータカテゴリの識別性能を向上させました。
    • Flan-T5モデルはデータの稀少性への対処において、ChatGPTなどの人気モデルファミリーよりも優れ、アルゴリズムのバイアスも少ないです。
  2. 意義と価値

    • LLMsを利用して実世界のSDOHデータ収集を改善し、患者リソース配分を支援する可能性を示しました。
    • 研究コミュニティが使用できる新たなアノテーションガイドラインと合成SDOHデータセットを提供しました。
    • 提案した方法は、健康格差の駆動要因をよりよく理解し、資源や社会的介入から最も利益を受ける可能性のある患者を特定するのに役立ちます。
  3. 将来の研究方向

    • 合成データ生成方法をさらに最適化し、まばらな記録の臨床情報をより良く抽出します。
    • 他のデータソースと統合し、モデルの汎化能力を向上させます。

本研究は、大規模言語モデルを利用してEHR中のSDOH情報の自動抽出を改善するための新しい道を提供し、健康データの利用効率を高め、臨床決定を支援する点で重要な意義を持ちます。詳細およびモデルのコードは関連の公開リソースにて取得可能で、今後の研究や応用に役立てることができます。