FedGPT:低秩张量空间中学习全局提示用于异构联邦学习
学术背景
随着人工智能(AI)模型的日益复杂和数据隐私保护的需求增加,联邦学习(Federated Learning, FL)作为一种分布式机器学习范式,逐渐成为研究热点。联邦学习允许多个客户端在不共享本地数据的情况下协同训练一个全局模型,从而在保护数据隐私的同时提升模型的泛化能力。然而,联邦学习在实际应用中面临三大挑战:1)模型参数过多导致通信负担过重;2)非独立同分布(Non-IID)数据导致全局模型性能下降;3)模型异构性使得传统的联邦聚合方法失效。
为了解决这些问题,本文提出了一种名为FedGPT的创新方法,通过在低秩张量空间中学习全局提示(Global Prompt),有效应对上述挑战。具体来说,FedGPT使用提示(Prompt)而非模型参数作为本地知识的载体,从而大幅减少通信量。同时,通过张量奇异值分解(Tensor Singular Value Decomposition, T-SVD)提取跨客户端的全局信息,消除客户端特异性信息的影响。此外,FedGPT还能够处理模型异构性,使得不同架构的本地模型能够通过提示进行知识传递,提升整体性能。
论文来源
本文由Lele Fu、Sheng Huang、Yuecheng Li、Chuan Chen、Chuanfu Zhang和Zibin Zheng共同撰写,作者分别来自中山大学系统科学与工程学院和计算机科学与工程学院。论文于2025年发表在《Neural Networks》期刊上,题为《Learn the Global Prompt in the Low-Rank Tensor Space for Heterogeneous Federated Learning》。
研究流程
1. 研究背景与问题定义
联邦学习的目标是通过多个客户端协同训练一个全局模型,但在实际应用中面临通信负担、数据异构性和模型异构性三大挑战。本文提出FedGPT方法,旨在通过提示学习和低秩张量分解解决这些问题。
2. 提示学习与联邦学习结合
FedGPT的核心思想是使用提示作为客户端与服务器之间的信息交互媒介。提示是一种可学习的嵌入(Embedding),仅需少量参数即可调整预训练模型以适应新任务。在联邦学习场景中,每个客户端接收来自服务器的全局提示,并在本地数据上进行训练。训练完成后,客户端将本地提示上传至服务器,服务器通过低秩张量分解提取全局信息,并更新全局提示。
3. 低秩张量分解
为了应对数据异构性,FedGPT将不同客户端的提示堆叠为三阶张量,并对其进行张量奇异值分解(T-SVD)。T-SVD能够提取张量中的主要成分(即全局信息),同时丢弃冗余的客户端特异性信息。具体步骤如下: 1. 将客户端的提示堆叠为三阶张量。 2. 对张量进行T-SVD分解,得到正交张量和奇异值张量。 3. 保留奇异值张量中的主要成分,丢弃冗余成分。 4. 通过加权平均生成全局提示。
4. 模型异构性处理
FedGPT通过提示学习实现异构模型之间的知识传递。由于提示仅需少量参数,不同架构的本地模型可以通过提示进行有效的信息交互,从而克服传统联邦聚合方法在模型异构性场景下的局限性。
5. 实验设计与结果
本文在CIFAR10、CIFAR100和Flower102三个真实数据集上进行了实验,验证了FedGPT的有效性。实验结果表明,FedGPT在数据异构性和模型异构性场景下均表现出色,性能优于其他先进的联邦学习方法。具体结果如下: 1. 数据异构性实验:FedGPT在不同异构程度下均表现出较强的鲁棒性,性能优于FedAvg、FedProx、Scaffold等方法。 2. 模型异构性实验:FedGPT能够有效处理异构模型之间的知识传递,性能优于FedMD和FedProto等方法。 3. 通信效率:FedGPT的通信量仅为FedAvg的3%,显著降低了通信负担。
主要结果
1. 数据异构性实验结果
在CIFAR10数据集上,当异构程度参数β为0.3时,FedGPT的分类准确率为85.26%,显著高于FedAvg的75.11%。随着β的增加,FedGPT的性能逐渐提升,当β为1时,准确率达到88.57%。
2. 模型异构性实验结果
在CIFAR100数据集上,FedGPT在异构模型场景下的分类准确率为66.51%,优于FedMD的64.54%和FedProto的62.33%。
3. 通信效率
FedGPT的通信量仅为FedAvg的3%,显著降低了通信负担。例如,在CIFAR10数据集上,FedGPT的通信量为0.31MB,而FedAvg的通信量为11.46MB。
结论与意义
本文提出的FedGPT方法通过提示学习和低秩张量分解,有效解决了联邦学习中的通信负担、数据异构性和模型异构性三大挑战。实验结果表明,FedGPT在多个数据集上均表现出色,性能优于其他先进的联邦学习方法。此外,FedGPT的通信效率显著提高,为实际应用提供了可行的解决方案。
FedGPT的创新性主要体现在以下两个方面: 1. 使用提示作为知识载体,通过T-SVD提取全局信息,实现了高效通信并克服了数据异构性的负面影响。 2. 探索了提示学习在模型异构性场景下的应用,为异构模型之间的知识传递提供了新的解决方案。
研究亮点
- 高效通信:FedGPT通过提示学习大幅减少了通信量,通信量仅为FedAvg的3%。
- 数据异构性处理:通过低秩张量分解提取全局信息,有效应对了数据异构性带来的挑战。
- 模型异构性处理:FedGPT能够处理异构模型之间的知识传递,为模型异构性场景下的联邦学习提供了新的解决方案。
- 实验验证:在多个真实数据集上的实验结果表明,FedGPT在数据异构性和模型异构性场景下均表现出色,性能优于其他先进的联邦学习方法。
其他有价值的信息
本文还详细分析了FedGPT的计算复杂度,并证明了其在通信轮数满足一定条件时能够收敛。此外,本文还讨论了FedGPT的局限性,例如在处理大规模图像时,T-SVD的计算复杂度较高,可能影响算法执行效率。未来研究可以进一步探索如何优化T-SVD的计算效率,以及如何在提示学习中更好地对齐不同客户端的语义信息。