通过亲和图增强分类器进行哮喘预测:基于常规血液生物标志物的机器学习方法

哮喘预测通过关联图增强分类器:基于常规血液生物标志物的机器学习方法

背景介绍

哮喘是一种影响全球约2.35亿人的慢性呼吸系统疾病。据世界卫生组织(World Health Organization, WHO)统计,哮喘病的主要特点是气道炎症,导致哮喘患者出现喘息、呼吸急促和胸闷等症状。为了有效管理和治疗哮喘,及时准确的诊断至关重要。然而,传统的哮喘诊断方法往往结合病史、体格检查和肺功能测试,不仅昂贵,还由于某些患者的非典型症状,使得诊断时间延长或误诊。此外,儿童哮喘的诊断尤为困难,传统方法的耗时特性可能会加重这一问题。

随着机器学习(Machine Learning, ML)的发展,在分析医疗数据、识别模式和生成预测方面展现了巨大潜力。本研究旨在利用关联图增强分类器(Affinity Graph Enhanced Classifier, AGEC)提高哮喘预测的准确性。

论文来源

这篇研究论文由Dejing Li、Stanley Ebhohimhen Abhadiomhen、Dongmei Zhou、Xiang-Jun Shen、Lei Shi和Yubao Cui撰写,并发表于《Journal of Translational Medicine》2024年第22卷第100期。相关机构包括南京医科大学附属无锡人民医院、江苏大学、尼日利亚大学等。这篇论文于2024年1月6日接受并发表,并在Open Access下发布。

研究流程

数据收集

研究所使用的临床数据集包含了152个样本,这些样本来自于上海中医药大学附属曙光医院的哮喘患者。数据包括从20岁到100岁的患者记录,其中18.4%的样本年龄在20到40岁之间,47.4%的样本在50到69岁之间,34.2%的样本超过70岁。数据集还包含了男女比例,其中男性占40%,女性占60%。

每个记录中提取了24个指标,包括血常规差异和红细胞指数。分类程序中用到的候选预测指标包括白细胞数(WBC)、中性粒细胞百分比(NE%)、淋巴细胞百分比(LY%)、单核细胞百分比(MO%)、嗜酸性粒细胞百分比(EO%)、嗜碱性粒细胞百分比(BA%)、红细胞数(RBC)、血红蛋白(HGB)、红细胞压积(HCT)、平均红细胞体积(MCV)、血小板计数 (PLT)等。

模型构建

传统的多标签学习模型(Multi-label Learning Model)被用来学习特征维度到标签维度的映射。新的模型通过引入投影矩阵P来减少特征空间的维度,同时通过关联图W捕获样本之间的内在关系。

公式如下:

[ \begin{aligned} &1. \ \text{优化目标} \ \left(\min||y-zw||^2_f+||z||^2f\right) \ &2. \ \text{引入关系矩阵} \ W \ \left(\sum{i,j}||P(x_i-x_j)||^2f W{ij}) \ &3. \ \text{结合投影矩阵} \ P \text{和优化模型} \ \Rightarrow w \ &4. \ \text{建构新的分类器} \ Z \text{得出优化模型} \end{aligned}]

模型优化

通过增强拉格朗日乘子法(Augmented Lagrange Multiplier, ALM),根据拉格朗日函数,得出关于每个变量的优化算法。从而获得优化模型并进一步调整超参数。通过最小化损失函数获取投影矩阵 P 及关联图矩阵 W。

研究结果

实验结果表明,AGEC在哮喘预测中的准确率显著优于现有的多标签学习算法(MLFE)、支持向量机(SVM)、排他性正则机器(ERM)等其他模型。特别是AGEC模型的预测准确率为72.50%,显著高于支持向量回归(SVR)的64.01%和改进的Adaboost的61.02%。

此外,通过使用ROC曲线和AUC值(Area Under Curve)来衡量模型的性能。AGEC的AUC值为74.01%,显著高于其他模型。此外,结果的 p 值表明模型之间的差异具有统计学显著性,这证明了AGEC的优越性和效用。

误差矩阵

从误差矩阵中可以看出,AGEC在分类结果上的阴影更深,表示其正确分类的效果更好,而在非对角线上的阴影更少,这意味着误分类的结果更少。

不同特征组的影响

实验还比较了特征子集的影响,并发现模型在第一个特征组上的准确率最高(78.18%)。这表明适当的特征选择对于增强分类模型的性能至关重要。

结论和意义

通过本研究提出的AGEC方法,基于关联图的机器学习模型在哮喘预测中表现出显著改进和优势。这一研究为临床领域提供了通过分析常规血液标记物更准确地预测哮喘的新方法,并希望这可以帮助临床社区及时预测和管理哮喘患者,减少恶化和住院的风险。

此外,该方法具有数据驱动性及其在其他疾病预测任务中的可扩展性,提供了一个未来研究的框架。最终,AGEC在早期哮喘检测中的潜在应用可以带来更积极和有针对性的干预,从而优化患者护理并降低医疗成本。

研究贡献和资金支持

本研究得到无锡太湖人才计划顶尖人才项目(2020THRC-GD-7)、2022年江苏省333项目(202221001)和无锡科技局 “太湖之光”科技攻关项目(Y20212006)资助。所有数据和代码均可向通讯作者提供。实验方案依据赫尔辛基宣言的道德准则,并获得上海中医药大学附属曙光医院伦理委员会批准。