時間的知識グラフと医療オントロジーによる将来の障害の予測

未来の病気予測:時間的知識グラフと医療オントロジーの融合

電子健康記録(Electronic Health Records, EHRs)は、現代の医療機関にとって不可欠なツールです。これらは患者の詳細な健康履歴を記録し、人口統計データ、薬物、実験結果、治療計画を含んでいます。これらのデータは、医療サービス間の連携や調整を改善し、医療提供者が健康の傾向を発見し、データに基づいた決定を下すのを助け、患者の全体的なケアの質を向上させることができます。しかし、EHRsに保存されているデータの大部分は非構造化であり、特に臨床医が記述する自由形式の患者健康状態のテキストデータは、情報の抽出と有効な利用に大きな課題をもたらします。

この課題に対処するため、多くの研究が自然言語処理(Natural Language Processing, NLP)の技術を使って非構造化データから関連情報を抽出し、それを医療オントロジーにリンクすることを試みています。最近の研究では、知識グラフ(Knowledge Graphs, KGs)が推薦システム、情報検索、自然言語処理において患者データの異なる種類や出典を統合する可能性を示していますが、伝統的な静的知識グラフは時間依存性を描写できず、患者の健康状態の動的な変化を効果的に反映することができません。

研究背景と目的

本研究は、Marco Postiglione、Daniel Bean、Zeljko Kraljevic、Richard JB DobsonおよびVincenzo Moscatoによって共同執筆され、《IEEE Journal of Biomedical and Health Informatics》に発表されました。研究チームはUniversity of Naples Federico IIおよびKing’s College Londonの専門家から構成され、これまでに分野内で一連の革新的な研究を行ってきました。

この研究では、MedTKGと呼ばれる時間知識グラフ(Temporal Knowledge Graph, TKG)の枠組みを提案しました。この枠組みは、患者の動的な臨床歴情報と医療オントロジーの静的情報を統合します。本研究の目的は、四重組(s, r, ?, t)の欠損オブジェクトを識別することで未来の病気を予測することです。ここで、sとrはそれぞれ患者と病気の関係タイプを表し、tはクエリのタイムスタンプです。研究はMIMIC-IIIデータセットからの臨床メモに基づいて、この方法が未来の病気の予測に有効であることを検証し、医療オントロジーがモデルの性能向上にどのように寄与するかを示しました。

方法とプロセス

データセットと前処理

研究にはMIMIC-IIIデータセットを使用しました。このデータセットはMIT Lab for Computational Physiologyによって開発され、2001年から2012年までのBeth Israel Deaconess Medical Center集中治療室の患者情報を含んでいます。このデータセットには46,520名の患者が含まれ、2,083,179件の非構造化の臨床メモがあります。

概念を抽出するため、研究チームはMedCAT(Medical Concept Annotation Toolkit)ツールを採用しました。このツールは自己教師あり学習の最新モデルによって訓練され、臨床概念を正確に識別し、それをSNOMED-CTオントロジーにリンクします。その後、抽出されたデータは前処理されました。具体的には、頻度が100回未満の稀な病気と患者を識別しやすい概念を除去し、少なくとも2回出現した生物医学概念を保持し、SNOMEDオントロジーにおける既存概念と「is-a」関係を共有する親概念を除去し、一日内に重複する概念を外し、10個未満の概念を含む医療歴を排除しました。

医療オントロジーと時間知識グラフ

研究はSNOMED-CTオントロジーを通じて、医療概念とそれに対応するコード間のマッピングを作成し、概念間の直接関係(例:「is-a」関係)と間接関係(例:共通の親概念を共有)を識別し分析しました。結果として、医療オントロジーと時間知識グラフが予測モデルの性能を効果的に向上させることが示されました。

定義に関して、医療歴は一連の知識グラフのシーケンスとして表されます(例:mt = {g1,g2, … ,gt})、ここでtは知識グラフのシーケンス長です。各知識グラフgt = ⟨v,r, et⟩はタイムスタンプtにおける有向異構グラフであり、v、r、およびetはそれぞれタイムスタンプt時点のエンティティ、関係および事実集合を表します。医療オントロジーグラフgsは、医療オントロジーに埋め込まれた知識をモデル化する静的知識グラフです。

モデル設計とアーキテクチャ

MedTKGモデルのアーキテクチャは図2に示されており、主に以下を含みます:

  1. 入力モジュール:臨床メモの自由形式テキストから始まり、まず名前付きエンティティ認識およびリンク(NER+L)ツールを通じて関連する臨床概念を抽出し、それを医療オントロジーにリンクします。次に、これらの抽出された医療概念を時間系列の知識グラフ形式で表現します。

  2. 進化ユニット:このユニットは関係感知グラフ畳み込みネットワーク(GCN)を使用し、知識グラフ内の構造依存関係を捉え、時間ゲート付き再帰ユニット(GRU)を通じて知識グラフの時間進化をモデル化します。さらに、医療オントロジーの静的特性を維持するために、静的グラフ制約コンポーネントが制約条件を導入し、医療オントロジーの静的埋め込みとエンティティの進化埋め込みを組み合わせます。

  3. スコアリング関数と損失関数:スコアリング関数は、与えられた病歴mtの候補三重項の条件付き確率を計算し、ConvTransEをデコーダーとして使用します。損失関数はエンティティ予測タスクの損失leと医療オントロジー制約の損失lsから構成されます。

実験と結果

データセットと医療オントロジー統計

研究では、医療歴が異なる知識グラフのトレーニングセットとテストセットに分割されました。トレーニングセットは90%、検証セットとテストセットはそれぞれ5%です。附表IIにはデータセットの統計情報が詳細に示されており、この研究によって生成されたグラフデータが記載されています。

評価指標

研究では、複数の評価指標が使用されました。これには平均倒数順位(MRR)、Top-kヒット率(Hits@k)、および平均再現率(MR@k)が含まれます。研究は、MedTKGが真の陽性率とヒット率の面で他の基準方法よりも顕著に優れていることを示し、臨床応用環境における高精度な予測能力を実証しました。

結論と今後の方向性

本研究は、MedTKGフレームワークを提案し、EHRsの動的情報と医療オントロジーの静的情報を成功裏に統合し、未来の病気予測における顕著な優位性を示しました。今後の研究方向としては、MedTKGの説明可能性を深く分析し、予測に対する明確で理解可能な根拠を提供すること、新しいデータセットやより多くの種類の医療イベントを含む研究範囲の拡大があります。同時に、研究チームはこのフレームワークが実際の臨床応用で有効であることを臨床試験を通じて検証する計画です。

時間知識グラフと医療オントロジーを利用することにより、MedTKGは医療分野に強力なモデリングツールを提供し、臨床決定の精度を向上させ、患者の全体的な健康状態を改善する潜在力を秘めています。