分享自:

多模态机器学习用于10年痴呆风险预测:弗雷明汉心脏研究

期刊:journal of alzheimer’s diseaseDOI:10.3233/jad-230496

本研究由Huitong Ding、Amiya Mandapati、Alexander P. Hamele、Cody Karjadi、Ting F.A. Ang、Weiming Xia、Rhoda Au和Honghuang Lin等作者共同完成,分别来自波士顿大学医学院、布朗大学、马萨诸塞大学医学院等多个研究机构。该研究于2023年发表在《Journal of Alzheimer’s Disease》期刊上,题为“Multimodal Machine Learning for 10-Year Dementia Risk Prediction: The Framingham Heart Study”。研究的主要目标是开发一种基于多模态数据的机器学习模型,用于预测10年内的痴呆症风险。

学术背景

痴呆症(Dementia)是一种不可逆的进行性神经退行性疾病,全球约有4400万人受其影响。阿尔茨海默病(Alzheimer’s Disease, AD)是痴呆症的最常见形式,目前尚无治愈方法。因此,早期识别高风险个体对于痴呆症的预防和干预至关重要。传统上,神经心理学测试(Neuropsychological Tests, NP Tests)和脑部磁共振成像(Magnetic Resonance Imaging, MRI)是评估痴呆症风险的主要手段。然而,单一模态的数据往往无法全面捕捉痴呆症的异质性。近年来,机器学习方法在多模态数据分析中展现出显著优势,能够同时评估多种因素及其相互作用,从而提高预测准确性。

研究流程

本研究基于Framingham心脏研究(Framingham Heart Study, FHS)的数据,纳入了1031名基线认知正常的参与者(平均年龄75岁,55.3%为女性),其中205人在10年随访期间被诊断为痴呆症。研究采用了三种数据模态:神经心理学测试、MRI测量和临床风险因素。具体流程如下:

  1. 数据收集与预处理
    神经心理学测试包括多个认知领域的评估,如言语记忆、视觉记忆、执行功能等。MRI数据通过标准化程序进行分割,测量了全脑体积、灰质体积、白质体积等多个指标。临床风险因素包括年龄、性别、教育程度、糖尿病、心血管疾病等。所有连续变量均进行了Z-score标准化处理。

  2. 模型构建与优化
    研究使用了CatBoost算法,并通过Optuna进行超参数优化,构建了10年痴呆症风险预测模型。数据被随机分为训练集(70%)和测试集(30%),并进行了10次随机分割以避免数据泄露。模型通过交叉验证选择最优超参数,并使用早期停止技术防止过拟合。

  3. 模型性能评估
    模型性能通过接收者操作特征曲线下面积(Area Under the Curve, AUC)进行评估。研究比较了单一模态模型和组合模态模型的预测性能,并计算了每个模态对模型贡献的Shapley值。

主要结果

  1. 模型性能
    基于三种模态的模型表现出最佳的痴呆症预测性能(AUC 0.90 ± 0.01),显著优于单一模态模型(AUC范围:0.82–0.84)。MRI测量对痴呆症预测的贡献最大(平均绝对Shapley值:3.19),其次是神经心理学测试(2.43)和临床风险因素(1.54)。

  2. 特征重要性
    Shapley值分析显示,全脑体积(Total Cerebral Brain Volume)是最重要的预测特征,其次是Trail Making Test B(TrailsB)得分。较小的全脑体积和较差的TrailsB表现显著增加了痴呆症的预测风险。

  3. 敏感性分析
    研究还进行了敏感性分析,分别限制了基线年龄(60岁、65岁、75岁)以及排除了中风或异常白质高信号的参与者。结果显示,多模态模型在不同年龄组和亚组中均表现出稳定的预测性能。

结论

本研究证明了多模态机器学习框架在10年痴呆症风险预测中的优越性能。通过结合神经心理学测试、MRI测量和临床风险因素,模型能够更准确地识别高风险个体,为早期干预和风险管理提供了有力工具。研究结果强调了多模态数据在痴呆症预测中的重要性,并为未来临床实践中的预测系统构建提供了参考。

研究亮点

  1. 多模态数据整合
    本研究首次系统地评估了多模态数据在痴呆症预测中的价值,证明了其相较于单一模态数据的显著优势。

  2. 机器学习算法优化
    研究采用了CatBoost算法,并通过Optuna进行超参数优化,显著提高了模型的预测性能。

  3. Shapley值分析
    通过Shapley值量化了每个模态和特征对模型预测的贡献,为理解痴呆症风险因素提供了新的视角。

意义与价值

本研究不仅在学术上为痴呆症风险预测提供了新的方法,还在临床应用上具有重要价值。通过多模态机器学习模型,临床医生可以更早地识别高风险个体,从而制定个性化的干预策略。此外,研究结果也为未来痴呆症预测系统的开发提供了理论基础和技术支持。

其他有价值的内容

研究还指出,尽管MRI测量在痴呆症预测中表现出高价值,但其在老年人群中的预测能力有所下降。这表明,随着年龄的增长,痴呆症的病理变化与正常老化之间的区分变得更加困难。未来的研究可以进一步探索其他数据模态(如血液生物标志物、数字生物标志物等)在痴呆症预测中的应用。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com