親和グラフ強化分類器による喘息予測:定期血液バイオマーカーに基づく機械学習アプローチ
喘息予測を関連グラフ強化分類器を用いて:従来の血液バイオマーカーに基づく機械学習手法
背景紹介
喘息は、全世界で約2.35億人に影響を及ぼす慢性呼吸器疾患です。世界保健機関(World Health Organization, WHO)の統計によると、喘息の主な特徴は気道の炎症であり、喘息患者は喘鳴、呼吸困難および胸部の圧迫感などの症状を示します。効果的な喘息管理および治療のためには、迅速かつ正確な診断が重要です。しかし、従来の喘息診断方法は病歴、身体検査および肺機能検査を併用するため、費用がかかるだけでなく、一部の患者の非典型的症状により診断時間が延びたり誤診されたりすることがあります。特に小児喘息の診断は困難で、従来の方法の時間がかかる特性はこの問題をさらに悪化させます。
機械学習(Machine Learning, ML)の発展に伴い、医療データの分析、パターンの識別および予測の生成において大きな可能性が示されています。本研究は、関連グラフ強化分類器(Affinity Graph Enhanced Classifier, AGEC)を利用して喘息予測の正確性を向上させることを目的としています。
論文出典
この研究論文はDejing Li、Stanley Ebhohimhen Abhadiomhen、Dongmei Zhou、Xiang-Jun Shen、Lei ShiおよびYubao Cuiによって執筆され、《Journal of Translational Medicine》2024年第22巻第100号に掲載されました。協力機関には南京医科大学附属無錫人民病院、江蘇大学、ナイジェリア大学などが含まれます。この論文は2024年1月6日に受理され、発表されました。オープンアクセスで投稿されています。
研究フロー
データ収集
研究で使用された臨床データセットは、上海中医薬大学附属曙光病院の喘息患者から採取した152サンプルを含んでいます。データには20歳から100歳までの患者の記録が含まれ、そのうち18.4%のサンプルが20歳から40歳、47.4%が50歳から69歳、34.2%が70歳以上でした。データセットには男女比も含まれ、男性が40%、女性が60%を占めています。
各記録から24個の指標を抽出し、血液通常検査の違いと赤血球指数を含みました。分類プログラムで使用される候補予測指標には白血球数(WBC)、好中球割合(NE%)、リンパ球割合(LY%)、単球割合(MO%)、好酸球割合(EO%)、好塩基球割合(BA%)、赤血球数(RBC)、ヘモグロビン(HGB)、ヘマトクリット(HCT)、平均赤血球容積(MCV)、血小板数(PLT)などがあります。
モデル構築
従来の多ラベル学習モデル(Multi-label Learning Model)を用いて特徴次元からラベル次元へのマッピングを学習しました。新しいモデルは投影行列Pを導入することで特徴空間の次元を削減し、同時に関連グラフWを用いてサンプル間の内在的な関係を捕捉します。
公式は以下の通りです:
[ \begin{aligned} &1. \ 最適化目標 \ (\min||y-zw||^2_f+||z||^2f) \ &2. \ 関連行列 \ W \ の導入 \ (\sum{i,j}||P(x_i-x_j)||^2f W{ij}) \ &3. \ 投影行列Pと最適化モデルの結合 \ \Rightarrow w \ &4. \ 新しい分類器の構築 \ Z \ を得て最適化モデル \end{aligned}]
モデル最適化
ラグランジュ乗数法の改良版(Augmented Lagrange Multiplier, ALM)を用いて、ラグランジュ関数に基づいて各変数の最適化アルゴリズムを得ました。これにより、最適化モデルを取得し、ハイパーパラメータをさらに調整しました。損失関数を最小化することで投影行列Pおよび関連グラフ行列Wを導出しました。
研究結果
実験の結果、AGECは喘息予測の正確性において、既存の多ラベル学習アルゴリズム(MLFE)、サポートベクターマシン(SVM)、排他正則機(ERM)などの他のモデルよりも有意に優れていることが示されました。特に、AGECモデルの予測正確性は72.50%であり、サポートベクター回帰(SVR)の64.01%および改良版Adaboostの61.02%を大幅に上回っています。
さらに、ROC曲線とAUC値(曲線下面積)を使用してモデルの性能を評価しました。AGECのAUC値は74.01%であり、他のモデルより有意に高かったです。また、結果のp値は各モデル間の差異が統計的に有意であることを示しており、AGECの優越性と有用性を証明しています。
エラーマトリックス
エラーマトリックスからは、AGECの分類結果において影がより濃く表示され、正しい分類の効果がより良いことが分かります。対角線上の影が少なく、誤分類の結果がより少ないことを意味します。
異なる特徴群の影響
実験では特徴サブセットの影響も比較しました。その結果、第一の特徴群におけるモデルの正確性が最も高かった(78.18%)ことが分かりました。このことから、適切な特徴選択が分類モデルの性能を向上させるために重要であることが示唆されます。
結論と意義
本研究で提案されたAGEC法は、関連グラフに基づく機械学習モデルが喘息予測において顕著な改善と優位性を示しました。この研究は、通常の血液バイオマーカーを用いて喘息をより正確に予測する新しい方法を臨床分野に提供し、臨床コミュニティが迅速に喘息患者を予測・管理し、悪化および入院のリスクを減少させることを期待しています。
さらに、この方法はデータドリブンであり、他の疾患予測タスクにおいても拡張性を持ち、将来の研究の枠組みを提供します。最終的に、AGECの早期喘息検出への潜在的な応用により、より積極的でターゲットを絞った介入が可能となり、患者ケアを最適化し、医療コストを削減することが期待されます。
研究貢献および資金支援
本研究は無錫太湖人材計画のトップタレントプロジェクト(2020THRC-GD-7)、2022年江蘇省333プロジェクト(202221001)、および無錫科学技術局「太湖の光」科学技術攻関プロジェクト(Y20212006)の支援を受けました。すべてのデータおよびコードは対応する著者に提供されます。実験の計画はヘルシンキ宣言の倫理指針に基づき、上海中医薬大学附属曙光病院の倫理委員会の承認を得ています。