分享自:

基于K-means的动态集成学习算法在ICU死亡率预测中的应用

期刊:Applied Soft Computing JournalDOI:10.1016/j.asoc.2021.107166

本文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:

作者与机构
本研究由Chonghui Guo、Mucan Liu和Menglin Lu共同完成,他们来自大连理工大学系统工程研究所。研究于2021年发表在《Applied Soft Computing Journal》第103卷,文章编号为107166。

学术背景
研究领域为医疗数据分析与机器学习,特别是重症监护病房(ICU)患者死亡率预测。传统的评分系统(如MODS、SAPS II和SOFA)虽然在临床中广泛应用,但在面对大规模数据时预测性能不足。尽管单机器学习模型和集成学习方法能够利用大数据,但它们在对新患者进行个性化预测时表现有限。动态集成选择(DES)方法在模式识别领域被广泛研究,但其仅选择单一分类器,而未充分利用集成学习的优势。为解决上述问题,本研究提出了一种基于k-means的动态集成学习算法(DELAK),旨在提高ICU患者死亡率预测的准确性和个性化。

研究流程
研究流程主要包括以下几个步骤:
1. 数据预处理:使用MIMIC-III(Medical Information Mart for Intensive Care III)数据集,该数据集包含2001年至2012年间58,976名ICU患者的临床数据。研究筛选了42,145名患者的首次ICU入院记录,并排除年龄小于15岁的患者。最终获得6,855名患者的预处理数据。数据预处理包括处理缺失值、噪声值和重复值,并选择SAPS II评分系统中的预测因子作为输入特征。
2. k-means采样:使用k-means算法将数据集划分为多个簇,生成多个子数据集用于训练基分类器。k-means采样通过计算每个样本与簇中心的欧氏距离,选择最接近簇中心的样本作为子数据集。这一方法确保了基分类器的多样性。
3. 基分类器训练:在每个子数据集上训练不同的基分类器,包括k近邻(KNN)、神经网络(NN)、支持向量机(SVM)、逻辑回归(LR)和决策树(DT)。
4. 动态集成学习:提出了一种基于距离的动态集成方法,根据测试样本与簇中心的距离动态调整每个基分类器的权重。距离越近,对应基分类器的权重越大。
5. 实验设计与性能评估:研究设计了多组实验,包括不同基分类器的比较、不同簇数和采样比例的影响,以及与其他集成方法的对比。性能评估指标为AUROC(受试者工作特征曲线下面积)和AUPRC(精确率-召回率曲线下面积)。

主要结果
1. 基分类器比较:神经网络(NN)在所有任务中表现最佳,尤其是在簇数达到10时,AUROC得分显著提升。
2. 簇数与采样比例的影响:随着簇数的增加,AUROC得分呈上升趋势,但当簇数达到10后,提升速度减缓。采样比例对不同的基分类器影响不同,SVM和NN的AUROC得分随采样比例增加而增加,而KNN和DT的得分在采样比例为0.2-0.3时达到峰值。
3. 集成方法比较:提出的DELAK方法在所有任务中的AUROC和AUPRC得分均优于其他集成方法,包括加权AUROC集成(WAUCE)、平均集成(AVGE)和单一最佳分类器(SB)。
4. 与传统评分系统和经典集成方法的比较:DELAK在ICU患者死亡率预测任务中表现优于传统评分系统(如SOFA、MODS和SAPS II)和经典集成方法(如随机森林和AdaBoost)。

结论
本研究提出的基于k-means的动态集成学习算法(DELAK)在ICU患者死亡率预测任务中表现出色,显著提高了预测的准确性和个性化。通过k-means采样和基于距离的动态集成,DELAK能够充分利用大数据的优势,同时克服了传统集成学习方法在个性化预测中的不足。该研究为医疗数据分析提供了新的思路,具有重要的科学价值和应用前景。

研究亮点
1. 创新性方法:首次将k-means采样与动态集成学习结合,提出了一种全新的集成学习算法。
2. 个性化预测:通过基于距离的动态集成方法,实现了对每个新测试样本的个性化预测。
3. 性能优越:DELAK在多个预测任务中的表现均优于传统评分系统和经典集成方法。
4. 广泛应用潜力:该方法不仅适用于ICU患者死亡率预测,还可推广至其他分类任务。

其他有价值的内容
研究还探讨了不同基分类器、簇数和采样比例对算法性能的影响,为后续研究提供了重要的参数选择依据。此外,研究使用了公开的MIMIC-III数据集,确保了实验的可重复性和透明性。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com