多施設共同作業による心音異常検出: 連邦学習フレームワークの導入

利用連邦学習で心音異常を検出する多機関協力研究

利用連邦学習で心音異常を検出する多機関協力研究

学術的背景

心血管疾患(Cardiovascular diseases, CVDs)は主要な死因の一つとなっており、特に高齢者において心血管の健康問題が社会の注目を集めています。早期のスクリーニング、診断および予後管理は入院を防ぐために非常に重要です。心音信号は豊富な生理学的および病理学的情報を含んでおり、心音を用いたCVDsの早期診断は取得が容易で、広く存在し、非侵襲性といった利点があります。近年、人工知能(AI)が心音補助診断に応用され、広く注目を集めています。自動心音聴診技術は心臓の状態を迅速かつ効果的に評価するのに役立ちます。しかし、現存する研究はデータの安全性およびプライバシー問題を無視しており、特に多機関がデータを共同使用する場合に問題が顕著です。


研究出典

本研究はWanyong Qiu、Chen Quanなどにより執筆され、執筆者はそれぞれ北京理工大学、東京大学教育生理学研究所、英国インペリアル・カレッジ・ロンドンといった著名な学術機関の出身です。論文は2023年にIEEE Transactions on Biomedical Engineeringに掲載されました。


研究目的と方法

背景問題

既存のAIモデルは通常大量の訓練データを必要とし、これがプライバシーの問題を引き起こす可能性があります。さらに、医療機関間でのデータ交換が自由に行えないため、データサイロ問題が発生し、多中心の医療データがAIモデルの協同訓練を困難にしており、医療AIモデルの発展を制約しています。

研究方法

上記の問題を解決するために、本研究では連邦学習(Federated Learning, FL)に基づく最適化戦略を提案し、情報を漏洩することなく多中心の心音データベースを利用してモデルを訓練することを目指しています。研究は主に水平連邦学習(Horizontal Federated Learning, HFL)および垂直連邦学習(Vertical Federated Learning, VFL)を適用し、前者はプライバシー問題を解決し、後者はモデルの解釈可能性とデータの希少性の問題を解決します。

具体的には、以下の点で革新が行われました:

  1. HFLモデルの設定: HFLを利用して多機関の心音データを処理し、各医療機関の参加者の特徴空間を揃え、IDを安全に集約します。
  2. VFLモデルの設定: 多機関のデータ特徴空間を連携させ、共同訓練と評価を行い、データラベルの欠如の問題を解決します。
  3. モデルの解釈可能性: Shapley値を利用してVFLモデルを解釈し、モデルの解釈可能性とデータプライバシーのバランスを取ります。

研究の流れ

データの説明と前処理

複数の医療機関から心音データベース(例:MIT心音データベース、Aalborg大学心音データベースなど)を取得し、データは正常および異常サンプルに分けられました。データの前処理には、信号処理、特徴抽出、およびデータバランス戦略が含まれます。

HFLモデル

XGBoostを基礎モデルとして使用し、水平連邦学習フレームワークを構築しました。特徴IDの安全な集約方法を用いて特徴空間を調整します。具体的な手順は以下の通り:

  1. 連邦サーバーが対称鍵を生成し、参加機関に配布します。
  2. 各参加機関は公開鍵を用いて特徴ID集合を暗号化し、サーバーに送信します。
  3. 連邦サーバーが秘密鍵を用いて暗号化結果を変換し、参加機関と共有します。
  4. 各参加機関はローカルでモデルを訓練し、インクリメンタルモデルの更新をサーバーに送信します。

VFLモデル

特徴空間は異なるがサンプル空間は同じ状況において、VFLモデルは多方が協力してグローバルモデルを構築します。具体的な手順は以下の通り:

  1. データを客体方と宿主持に分け、サンプル空間の一致を確保しますが特徴空間は異なります。
  2. 各方はプライバシーを保護しつつ特徴工学とモデル訓練を行います。
  3. プライバシー保護プロトコルに基づき、各方が共同でモデル評価と推論を行います。

主要な結果と総括

HFLモデルの結果

非独立同分布(non-iid)およびサンプル量の不均衡条件下で、HFLモデルはテストセットにおいて優れた性能を示しました。50回の反復実験で得られた最適モデルパラメータは30本の木、高さは3でした。感度は62.1%、特異性は72.8%に達し、従来のXGBoostモデルを上回りました。

VFLモデルの結果

VFLモデルはAalborg大学および大連理工大学のデータベースなど、サンプル量が充実しているデータベースにおいて良好な性能を示しましたが、データベースdfのデータ分布の差異が顕著なため、VFLモデルの結果は予想を下回りました。最大平均差異(MMD)値は、データベースdfと他のデータベース間に顕著な分布差異が存在することを示しました。

モデルの解釈可能性

Shapley値を用いてVFLモデルのデータプライバシーを保護しつつ解釈します。多中心心音データベースにおいて、連邦特徴はグローバルモデルの特徴に対する影響分布を増加させました。特徴値のビニング法により宿主持データプライバシーが保護され、VFLモデルに対して解釈性と公平性評価のためのデータ貢献能力が提供されました。

研究の意義

本研究は初めて実際の医療シーンで連邦学習を応用し、心音モデルの最適化を行い、患者のプライバシーを保護しつつ良好な分類効果を達成しました。研究結果は、連邦学習が心音異常検出において優れた性能を持つことを示しており、高いデータプライバシー保護が求められるシーンにおいて連邦スマートヘルスケアシステムの広範な応用を促進する可能性があります。


研究のハイライト

  1. 多機関協力モデル訓練: データプライバシーを保護しつつ、多中心医療データベースで連邦学習を実現しました。
  2. モデルの解釈可能性: Shapley値を用いてVFLモデルを解釈し、モデル解釈可能性とデータプライバシーの両立を図りました。
  3. 実際の応用価値: 連邦学習を用いた心音分類に関する実践ガイドを提供し、スマートヘルスケアシステムの発展にとって重要な価値を持ちます。

未来の研究方向

  1. データの標準化: 標準化された心音データベースの構築により、データの異構性およびプライバシーノイズがモデル性能に及ぼす影響を解決します。
  2. 連邦学習のインセンティブメカニズム設計: Shapley値に基づいて特徴の貢献度を測定し、より多くの参加者を連邦学習に参加させるための合理的なインセンティブメカニズムを設計します。
  3. 暗号化および通信コスト: 差分プライバシーなどの新しい暗号化方式を追求し、連邦学習の通信コストを削減し、モデルの適用性を向上させます。