利用联邦学习检测心音异常的一项多机构合作研究
利用联邦学习检测心音异常的一项多机构合作研究
学术背景
心血管疾病(Cardiovascular diseases, CVDs)已经成为主要的死亡原因之一,特别在老年人口中,心血管健康问题亟待社会关注。早期筛查、诊断和预后管理对于预防住院具有重要意义。心音信号携带丰富的生理和病理信息,通过心音进行CVDs早期诊断具有容易获取、广泛存在和非侵入性等优势。近年来,人工智能(AI)在心音辅助诊断中的应用引起了广泛关注,自动心音听诊技术有助于快速、有效地评估心脏状态。然而,现有研究在应用过程中忽略了数据安全和隐私问题,尤其是在多机构数据合作时。
研究来源
本文由Wanyong Qiu, Chen Quan等人撰写,作者分别来自北京理工大学、日本东京大学教育生理学实验室、英国帝国理工学院等知名学术机构。论文于2023年发表于IEEE Transactions on Biomedical Engineering。
研究目的与方法
背景问题
现有的AI模型通常需要大量的训练数据,这可能引发隐私问题。而且,由于医疗机构之间的数据不可以随意交换,导致数据孤岛问题,这使得多中心医疗数据难以协同训练AI模型,从而限制了医疗AI模型的发展。
研究方法
为了解决上述问题,本文提出了一种基于联邦学习(Federated Learning, FL)的优化策略,旨在在不泄露信息的情况下,利用多中心的心音数据库进行模型训练。研究主要应用了水平联邦学习(Horizontal Federated Learning, HFL)和垂直联邦学习(Vertical Federated Learning, VFL),前者主要解决隐私问题,后者解决模型可解释性和数据稀缺性问题。
具体来说,本文在以下几个方面进行了创新:
- HFL模型设置: 利用HFL来处理多机构心音数据,对不同医疗机构参与者进行特征空间对齐和ID安全聚合。
- VFL模型设置: 联合多机构的数据特征空间,共同训练和评估VFL模型,解决数据标签缺失的问题。
- 模型可解释性: 利用Shapley值对VFL模型进行解释,平衡模型的可解释性和数据隐私。
研究流程
数据描述与预处理
从多家医疗机构的心音数据库中获取数据,如MIT心音数据库、Aalborg大学心音数据库等,数据分别标记为正常和异常样本。数据预处理包括信号处理、特征提取及数据平衡策略。
HFL模型
使用XGBoost作为基础模型,建立水平联邦学习框架。通过特征ID安全聚合方法对齐特征空间,具体步骤包括:
- 联邦服务器生成对称密钥并分发给参与机构。
- 各参与机构使用公钥加密其特征ID集合,并发送给服务器。
- 联邦服务器使用私钥将加密结果进行转换,并与参与机构共享聚合结果。
- 各参与机构本地训练模型,并将增量模型更新发送至服务器。
VFL模型
在特征空间不同但样本空间相同的情境下,VFL模型通过多方合作实现全球模型构建。具体步骤包括:
- 将数据分为客体方和宿主方,确保样本空间一致但特征空间不同。
- 各方在保护隐私的基础上进行特征工程和模型训练。
- 依据隐私保护协议,各方共同进行模型评估和推理。
主要结果与总结
HFL模型结果
在非独立同分布(non-iid)和样本量不平衡条件下,HFL模型在测试集上的表现优异。通过50次重复实验得出的最佳模型参数为30棵树,高度为3。敏感性达62.1%,特异性达72.8%,均高于传统的XGBoost模型。
VFL模型结果
VFL模型在样本量充足的数据库中表现良好,如Aalborg大学和大连理工大学的数据库,其性能接近传统的集中式数据学习模型。然而,由于数据库df的数据分布差异显著,VFL模型结果低于预期。最大均值差距(MMD)值显示,数据库df和其他数据库之间存在显著分布差异。
模型可解释性
通过Shapley值解释VFL模型无损数据隐私。在多中心心音数据库中,联邦特征增加了全球模型特征对模型输出的影响分布。特征值分箱法用以保护宿主方数据隐私,均为VFL模型提供解释性和公平性评估数据贡献的能力。
研究意义
本文首次实现在真实医疗场景中应用联邦学习,对心音模型进行优化,使其在保护患者隐私的前提下,达成良好分类效果。研究结果表明,联邦学习在心音异常检测中性能优异,有望促进联邦智慧医疗系统的广泛应用,特别是在数据隐私保护要求高的场景中。
研究亮点
- 多机构合作模型训练: 在保护数据隐私的基础上,实现在多中心医疗数据库中的联邦学习。
- 模型可解释性: 通过Shapley值方法,对VFL模型进行解释,兼顾模型可解释性和数据隐私。
- 实际应用价值: 提供了联邦学习在心音分类中的实践指南,对智慧医疗系统的发展具有重要价值。
未来研究方向
- 数据标准化: 建立标准化的心音数据库,以解决数据异构和隐私噪声对模型性能的影响。
- 联邦学习激励机制设计: 基于Shapley值衡量特征贡献,设计合理的激励机制鼓励更多参与者加入联邦学习。
- 加密与通信成本: 进一步探索差分隐私等新型加密方案,降低联邦学习的通信成本,提高模型的适用性。