本文介绍的研究由Lei Tian、Feilong Lin、Jiahao Gan、Riheng Jia、Zhonglong Zheng和Minglu Li等作者共同完成,他们来自浙江师范大学计算机科学与技术学院。该研究于2025年2月1日发表在《IEEE Internet of Things Journal》第12卷第3期上,题为《PEFL: Privacy-Preserved and Efficient Federated Learning with Blockchain》。研究的主要领域为分布式机器学习中的联邦学习(Federated Learning, FL),旨在解决联邦学习在数据隐私、模型安全和系统效率之间的平衡问题,特别是在不信任服务器的情况下,如何通过区块链技术实现隐私保护和高效训练。
联邦学习作为一种分布式机器学习范式,允许多个互不信任的客户端在不共享私有数据的情况下协作训练共享模型。然而,联邦学习的分布式特性引入了新的安全挑战,例如数据泄露、模型中毒攻击(poisoning attacks)以及中心服务器的潜在恶意行为。现有的解决方案往往需要在隐私、安全和效率之间进行权衡,通常以牺牲效率为代价来确保隐私和安全。此外,大多数方法假设存在一个可信的中心服务器进行协调,这在实际应用中并不现实。
为了解决这些问题,本研究提出了一种基于区块链的隐私保护和高效联邦学习框架(PEFL)。PEFL结合了区块链技术和差分隐私(Differential Privacy, DP)技术,通过客户端之间的协调来实现隐私保护,并通过聚合端的检测算法过滤异常模型参数,以抵御中毒攻击。此外,研究设计了一种基于委员会的模型验证容错联邦(Model-Validated Fault-Tolerant Federation, MFF)共识机制,以确保在不信任服务器的情况下,训练过程的可靠性。
PEFL框架的研究流程包括以下几个主要步骤:
模型训练与差分隐私处理:每个客户端从区块链下载当前轮次的模型,并使用本地数据集进行训练。为了防止潜在的推理攻击,客户端在训练后对模型权重进行本地差分隐私(Local Differential Privacy, LDP)处理,添加高斯噪声以保护模型隐私。
模型聚合与异常检测:服务器收集所有客户端的模型后,使用一种基于欧几里得距离的算法进行聚合。该算法通过计算每个模型参数与其他模型参数之间的距离,并利用中位数绝对偏差(Median Absolute Deviation, MAD)来识别和分离异常参数,从而抵御中毒攻击。
委员会共识与模型验证:服务器将聚合后的全局模型和本地模型提交给委员会。委员会成员对模型进行分布式验证,确保服务器聚合行为的诚实性。委员会通过MFF共识机制对验证结果达成一致,并将最终结果和模型数据上传到区块链,确保训练过程的透明性和可靠性。
区块链存储与下一轮训练:区块链存储每一轮训练生成的全局模型以及相关的计算数据。客户端从区块链下载最新的全局模型,并开始下一轮训练。
研究在MNIST和CIFAR-10数据集上进行了实验,并与典型的联邦学习方案进行了对比。实验结果表明,PEFL在抵御各种攻击模型方面表现出更好的鲁棒性,同时在确保隐私安全的情况下实现了更高的训练效率。具体结果如下:
抵御中毒攻击:PEFL在抵御额外噪声攻击(extra noise attack)和标签翻转攻击(label-flipping attack)方面表现优异。特别是在恶意节点比例较高的情况下,PEFL仍能准确识别并过滤有毒模型,保持较高的模型准确率。
效率提升:与现有的联邦学习方案相比,PEFL在训练时间上显著减少。尤其是在验证和聚合阶段,PEFL通过减少委员会成员需要验证的模型数量,显著降低了计算开销。
非独立同分布数据下的表现:在非独立同分布(non-IID)数据下,PEFL仍能在一定程度上抵御中毒攻击,但在极端非独立同分布情况下,模型的准确性有所下降。这表明PEFL在非独立同分布数据下的鲁棒性仍需进一步研究。
PEFL框架通过结合区块链和差分隐私技术,成功解决了联邦学习中的隐私保护和效率问题。其主要贡献包括:设计了一种基于中位数绝对偏差的异常参数检测算法,有效抵御了中毒攻击;提出了一种基于委员会的MFF共识机制,确保在不信任服务器的情况下,训练过程的可靠性;并通过实验验证了PEFL在抵御各种攻击和提升训练效率方面的优越性。
新颖的异常检测算法:PEFL设计了一种基于欧几里得距离和中位数绝对偏差的异常参数检测算法,能够有效识别并分离有毒模型,抵御中毒攻击。
高效的共识机制:MFF共识机制通过分布式验证和区块链存储,确保训练过程的透明性和可靠性,同时显著降低了计算开销。
综合性能优越:与现有的联邦学习方案相比,PEFL在隐私保护、安全性和效率之间实现了更好的平衡,特别是在抵御各种攻击和提升训练速度方面表现出色。
研究还探讨了PEFL在非独立同分布数据下的表现,并指出在极端非独立同分布情况下,模型的准确性可能下降。这为未来的研究提供了方向,即如何在更复杂的数据分布下进一步提升联邦学习的鲁棒性。
总体而言,PEFL框架为联邦学习中的隐私保护和效率问题提供了一种创新的解决方案,具有重要的科学价值和应用前景。