医療履歴は現象全体の疾患発症を予測し、新たな健康脅威への迅速な対応を可能にする

医療記録を使用した広範な病気の発生予測と新たな健康脅威への迅速な対応支援

研究背景と動機

新型コロナウイルス感染症の流行は、グローバルなシステムの欠陥やデータ駆動型の指針の欠如を露呈し、高リスク群の識別およびパンデミックの準備に重大な影響を与えました。個々の未来の病気リスク評価は、予防介入、早期疾患検出、および治療開始において重要です。しかし、共通する疾患については、特定のリスクスコアがあるのは一部に過ぎず、多くの関連疾患に対する医療提供者や個人の指針は不足しています。定められたリスクスコアが存在する場合でも、どのスコアを使用するかや関連する生理学的あるいは実験室測定についてのコンセンサスが欠如しており、日常的な医療実践が高度に断片化しています。特に新型コロナウイルス感染症の初期段階では、利用可能なデータが不足していたため、脆弱な人々のリスクスコアを識別することができませんでした。

同時に、ほとんどの医療決定(診断、治療、病気予防)は個々の医学史に基づいています。デジタル化の普及に伴い、これらの情報は医療提供者、保険会社、政府によって電子健康記録として収集されていますが、人間が大量のデータを処理・理解する能力には限りがあり、このような容易に取得可能な記録が医療決定を改善する潜在力は依然として限定的です。

既存の研究では、電子健康記録が臨床決定指針、原因学、診断、および予後研究に使用されています。いくつかの取り組みは、既知の臨床予測因子を新しい方法と統合するか、臨床ノートのような他のデータパターンを利用しましたが、健康現象全体の予測可能性を探る研究は少ないです。したがって、日常的に収集される健康記録を医療決定に指針とするシステムの潜在力は十分に掘り下げられていません。

研究出典

この研究はJakob Steinfeldt、Benjamin Wild、Thore Buergel、Maik Pietzner、Julius Upmeier Zu Belzen、Andre Vauvelle、Stefan Hegselmann、Spiros Denaxas、Harry Hemingway、Claudia Langenberg、Ulf Landmesser、John Deanfield、Roland Eilsによって執筆されました。著者はそれぞれドイツ、イギリス、アメリカの有名な機関に所属しています。この論文は2024年に『Nature Communications』誌に発表されました。

研究プロセス

データ収集と記述

この研究は、英国バイオバンク(UK Biobank)および“私たちみんな”(All of Us)コホートに基づいています。UK Biobankには、英国系先祖を持つ502,460名の健康個体が含まれており、中年齢は58歳で、54.4%が女性です。個体は2006年から2010年にかけて募集され、中央値で12.6年間の追跡調査が行われました。研究では1883種類の現象範囲のエンドポイントを検討し、これらのデータを使用してモデルの開発と検証を行いました。All of Usコホートには、アメリカの多様な人々が含まれる229,830名が含まれています。個体の中年齢は54歳で、61.1%が女性です。このコホートは2019年から募集され、中央値で3.5年の追跡期間があります。

モデル開発と検証

研究では、神経ネットワークモデルを用いて個々の全ての医学史を学習し、複数の疾患のリスクを予測しました。UK Biobankコホートで訓練された多層パーセプトロン神経ネットワークを開発・訓練・検証し、日常的に収集される健康記録から病気リスクを推定しました。従来の手法(線形モデルや生存木など)では、各疾患ごとに個別のモデルを構築する必要があるのとは異なり、本手法では神経ネットワークを用いて複数のエンドポイントを同時に予測します。これにより、モデルの構造が大幅に簡素化されました。

これらのモデルの汎用性を確認するため、All of Usコホートで外部検証を行い、異なる医療システムや人々間でのモデルのパフォーマンスを検証しました。また、この方法の心血管疾患予防や新型コロナウイルス感染症(二次感染、全因死亡など)の新たな健康脅威への応用も探ることができました。

データ統合と分析

さらなる分析を行う前に、研究は全ての健康記録をOMOP語彙表にマッピングしました。主要な記録ドメインは薬物と観察であり、次に条件、手技、装置が続きます。また、非常に稀な概念を排除し、15,595個のユニークな概念を保持しました。多任務多層パーセプトロン(88.4mパラメータ)を用いて1883個のエンドポイントの現象発生状況を同時に予測し、ベースライン線形モデルと比較しました。

リスク状態とイベント発生

健康記録が高リスク集団を識別するために使用可能かどうかを評価するため、神経ネットワークが推定した各エンドポイントのリスク状態と未来の疾患リスクの関係を分析しました。結果は、大多数のエンドポイントで、リスク状態の上位10%と下位10%の集団間でイベント発生率に顕著な差異があることを示しました。これは、関節リウマチ、虚血性心疾患、慢性閉塞性肺疾患など、さまざまな疾患カテゴリーおよび病因にまたがる現象です。

研究結果

モデル性能

研究は、1774(94.2%)のエンドポイントについて、医学史に基づくモデルが年齢と性別のみを考慮したベースラインモデルよりも顕著に優れていることを発見しました。特に、共通する疾患や社会的負担の大きい病状については、高リスク個体と低リスク個体を区別する上でモデルは優れた性能を示しました。

外部検証

All of Usコホートでの外部検証では、1347(85.9%)のエンドポイントについて、医学史に基づくモデルが同様にベースラインモデルよりも顕著に優れていることが示されました。これは、異なる医療システムや多様な人々の間で、医学史に基づくリスク予測モデルの良好な一般性を示しています。

疾病予防と新たな健康脅威への対応

研究はさらに、この方法が心血管疾病予防や新型コロナウイルス感染症などの新たな健康脅威への対応において有用であることを示しました。医学史に基づくリスク予測モデルは、初期段階で高リスク群を識別することができ、防疫および治療戦略の最適化に寄与します。

結論

この研究は、日常的な健康記録を使用して現象範囲内の疾病リスクを体系的に評価する潜在力を証明し、これらのリスク状態が新たな健康脅威(例:新型コロナウイルス感染症)に迅速に対応するために利用できることを示しました。研究結果は、この手法が科学的価値を持つだけでなく、医療実践において広範な応用の可能性があることを示しています。

研究のハイライト

  1. 方法論の新規性:神経ネットワークを使用して複数のエンドポイントを同時に予測し、モデル構造を簡素化。
  2. 広範な適用可能性:モデルは異なる医療システムや多様な人々の間で優れた性能を示す。
  3. 実用的意義:モデルは心血管疾病予防や新たな健康脅威(例:新型コロナウイルス感染症)への対応に使用可能。

この研究は、すでに収集されたデータを用いて臨床実践にリンクし、予防介入および疾患の早期診断と治療を指導する方法を示し、将来の大規模人口健康管理に新たな考え方を提供しました。