在非凸模型和异质数据环境下解决去中心化SGD问题的一种通用的动量范式
在非凸模型和异质数据环境下解决去中心化SGD问题的一种通用的动量范式
- 研究背景介绍
近年来,随着物联网和边缘计算的兴起,分布式机器学习得到了迅猛发展,尤其是去中心化训练范式。然而,在实际场景中,非凸目标函数和数据异质性成为制约分布式训练效率与性能的两大瓶颈问题。
非凸优化目标函数广泛存在于深度学习模型中,它们可能存在多个局部最优解,从而导致模型精度下降、训练过程不稳定等问题。同时,在分布式环境下,参与计算的各节点持有的数据分布存在差异(即异质性),此种数据偏差会给收敛性和泛化性能带来不利影响,成为另一个亟待解决的挑战。
- 文章来源
本文发表于著名期刊《人工智能》(Artificial Intelligence)2024年第332期,作者来自上海电力大学计算机科学与技术学院。
- 研究工作
3.1 总体框架
作者提出了一种统一的动量范式UMP(Unified Momentum-based Paradigm),包含两种去中心化SGD算法:D-Sum和GT-DSum。前者为解决非凸优化问题提供收敛性保证,后者则在D-Sum基础上引入梯度跟踪(Gradient Tracking)技术,以缓解数据异质性带来的影响。
3.2 D-Sum算法
算法流程: 1) 初始化各节点模型参数和动量缓存 2) 每轮迭代中,各节点基于本地数据执行K次模型更新(SGD或动量SGD等) 3) K次更新后,节点间进行一次模型平均聚合 4) 进入下一轮迭代
算法创新:引入统一动量更新方程,覆盖经典动量方法(如polyak’s momentum和nesterov acceleration),并给出非凸收敛性分析。
3.3 GT-DSum算法
算法流程: 1) 初始化各节点模型参数、动量缓存和梯度跟踪器 2) 每轮迭代中,利用跟踪器对局部梯度进行校正,执行K次模型更新 3) K次更新后,节点间进行模型、动量缓存和跟踪器的聚合 4) 更新跟踪器的差值项,进入下一轮迭代
算法创新:基于D-Sum,融合梯度跟踪技术,使得各节点的更新方向逐渐趋同于全局优化方向,从而缓解数据异质性影响。
3.4 理论分析 针对两种算法,作者严格推导了它们在非凸、平滑的分布式优化问题上的收敛性上界,与经典SGD收敛率相当。值得一提的是,GT-DSum的收敛界只与初始的数据偏差有关,而不依赖于整个训练过程中的数据异质程度。
- 实验部分
为评估方法的实际表现,作者在常见模型、数据集和动态环境上开展了大量实验。结果显示,针对不同程度的非独立同分布数据,D-Sum和GT-DSum算法相比现有去中心化基线方法,最多可将模型精度分别提高35.8%和57.6%。其中,GT-DSum对解决数据偏差问题有更优秀的泛化性能。
- 研究意义
本文主要创新点在于提出了一个涵盖多种动量方法的统一范式UMP,实现非凸优化和数据异质性问题的同步解决。与现有方法相比,UMP范式具有如下优势:
1) 统一性:通过调节参数,可覆盖诸如Heavy Ball、Nesterov Acceleration等多种经典动量方法。
2) 理论保证:首次对动量方法在分布式非凸优化问题上给出了收敛性分析。
3) 实践性能:大幅提升模型在异质数据环境下的精度和鲁棒性。
4) 范式创新:为今后在分布式非凸优化和数据偏差问题上的新算法设计提供了新思路。
该项工作为高效解决分布式机器学习中的两大核心挑战提供了新的理论基础和系统性算法框架。