電子健康記録の署名により、診断されていない一般的な可変免疫不全症の患者を特定

未診断の一般的な亜型免疫不全症患者の識別における電子健康記録特徴の利用

研究概要

Johnsonらは最近、Science Translational Medicineに「Electronic health record signatures identify undiagnosed patients with common variable immunodeficiency disease」というタイトルの研究論文を発表しました。この研究は、電子健康記録(EHR)と機械学習アルゴリズムPheneTを用いて、未診断の一般可変免疫不全病(common variable immunodeficiency, CVID)患者を識別し、より早期の診断と治療の新たな方法を提供するものです。

研究背景と研究目的

ヒトの先天性免疫不全(inborn errors of immunity, IEI)には、B細胞の機能不全によって引き起こされる機能性および数量的な抗体欠乏を含む一連の障害があり、その一つが一般可変免疫不全(CVID)です。CVIDは異質性が高い疾患群で、患者の症状は異なり、感染、自己免疫疾患、炎症性疾患など、さまざまな一般的な疾患と重なります。その希少性(発生率は約1/25000)および表現型の多様性のため、CVIDの診断と治療はしばしば遅れ、症状が現れてから診断に至るまで平均して5~15年かかります。これは患者の苦痛を増大させ、医療システム全体のコストを著しく上昇させます。現在、CVIDには公認の単一の原因はなく、遺伝子検査も確定的な診断を提供できないため、CVIDの診断を迅速に行い、早期診断と治療ができる方法が緊急に必要とされています。

論文の出典

この研究は、UCLAのRuth Johnson、Alexis V. Stephens、Rachel Mesterらによって執筆され、2024年5月1日のScience Translational Medicineに掲載されました。

研究機関

この研究の著者は、複数の学術および医療研究機関に所属しています:

  • カリフォルニア大学ロサンゼルス校(UCLA)
  • カリフォルニア大学アーバイン校(UCI)
  • カリフォルニア大学サンディエゴ校(UCSD)
  • バンダービルト大学(ナッシュビル, テネシー)

研究方法

この研究は、未診断のCVID患者をEHRデータから識別するために、PheneTと呼ばれる機械学習アルゴリズムを開発することに重点を置いています。

a) 研究プロセス

  1. データの準備:

    • UCLAの電子健康記録システムから、免疫不全関連ICDコードを有する約3200名の候補患者を抽出。臨床免疫学者による手動レビューを経て、最終的に197名がCVID基準に合致する「真の」症例として特定され、モデル構築に利用されました。
  2. 特徴の選択:

    • これらの症例から特徴を抽出し、HPO(Human Phenotype Ontology)とOMIM(Online Mendelian Inheritance in Man)データベースを用いて、CVIDの臨床表現型をPhecode(表現型コード)にマッピングし、CVIDに関連する34個のPhecodeを特定しました。
    • CVID患者を含むトレーニングデータセットを使用して特徴選択の精度を向上させ、44個のPhecodeを選びました。
  3. モデルのトレーニング:

    • 選択した特徴に対して、マージンロジスティック回帰法を用いてトレーニングを実施。
    • データバランス処理と適度なサンプル拡張(0.5のオーバーサンプリング比)を実施しながらトレーニング。
    • 五分割交差検証でIgGラボテスト結果を用いてモデル精度を最適化。
  4. 検証と応用:

    • UCLAを含む5つの異なる医療システムの600万以上の記録で外部検証を行い、PheneTは異なるシステム間での普遍性を示しました。
    • UCLAのEHRデータから、PheneTはCVID患者を診断前に244日(約8ヶ月)早く特定することができました。

b) 主な結果

  • PheneTの性能:

    • PheneTは既存のPhers法を上回り、AUC-ROCとAUC-PRのパフォーマンス指標でそれぞれ17%と42%の改善を示しました。
    • PheneTモデルは65個の特徴を通じて、正確かつ効率的にCVID患者を識別することができました。
  • 早期診断:

    • PheneTは、診断前の数ヶ月間に高リスクのCVID患者を識別できることを示しました。研究によると、PheneTは患者確診の平均244日前に疾患を検出可能です。
    • リスクスコアの上位100名のうち、74%の患者がCVIDの可能性が高いと評価され、PheneTの有効性を示しています。
  • 異なる機関での検証:

    • PheneTはカリフォルニア大学の複数の医学センターおよびバンダービルト大学のEHRデータに適用され、このアルゴリズムが異なるデータセットで高い堅牢性と普遍性を持つことが示されました。

c) 結論と研究価値

  • 科学的価値:

    • この研究は、医療分野、特に希少疾患の早期診断における機械学習の巨大な可能性を示しています。
    • 大規模なEHRデータを機械学習に利用することで、希少疾患の診断時間を効果的に短縮し、患者の苦痛や医療リソースの浪費を減少させることが示されました。
  • 応用価値:

    • PheneTは臨床診断に新しい方法とツールを提供し、医師が潜在的なCVID患者を早期に識別し、早期介入を行うのに役立ちます。
    • 医療システムはこのアルゴリズムを利用して、広範な人々に対してスクリーニングを行い、希少疾患の識別率を向上させ、医療リソースの最適化に寄与します。

d) 研究のハイライト

  • 革新性:

    • PheneTアルゴリズムは機械学習と大規模なEHRデータを組み合わせ、従来の方法ではカバーできなかった複雑な病理学的特徴を探索します。
    • CVID用の総合リスクスコアモデルは既存の方法を改良し、異なる機関での検証で高い信頼性を示しました。
  • 臨床的影響:

    • PheneTを使用することで、CVIDの診断遅延を著しく減少させ、多くの医療リソースを節約し、患者の生活の質や予後を改善できます。

EHRデータの体系的な分析によって、PheneTアルゴリズムは複雑な希少病の診断における巨大な潜力を示し、将来の医療AIの応用において非常に価値のある参考となります。