Un paradigme unifié basé sur la dynamique de SGD décentralisé pour les modèles non convexes et les données hétérogènes
Un paradigme de moment unifié pour résoudre les problèmes SGD décentralisés sous des modèles non convexes et des environnements de données hétérogènes
- Introduction
Ces dernières années, avec l’émergence de l’Internet des objets et de l’informatique edge, l’apprentissage machine distribué a connu un développement rapide, en particulier le paradigme de formation décentralisé. Cependant, dans des scénarios réels, les fonctions objectifs non convexes et l’hétérogénéité des données sont devenus deux goulots d’étranglement majeurs limitant l’efficacité et les performances de la formation distribuée.
Les fonctions d’optimisation non convexes sont largement présentes dans les modèles d’apprentissage profond, pouvant présenter de multiples optima locaux, entraînant ainsi une baisse de précision des modèles et une instabilité du processus d’entraînement. En même temps, dans un environnement distribué, les distributions de données détenues par les différents nœuds de calcul présentent des différences (c’est-à-dire une hétérogénéité), ce biais de données ayant un impact néfaste sur la convergence et les performances de généralisation, constituant un autre défi à résoudre.
- Source de l’article
Cet article a été publié dans la célèbre revue “Artificial Intelligence” (Intelligence Artificielle), numéro 332, 2024, par des auteurs de l’École d’informatique et de technologie de l’Université de l’électricité de Shanghai.
- Travaux de recherche
3.1 Cadre général
Les auteurs ont proposé un paradigme de moment unifié UMP (Unified Momentum-based Paradigm), comprenant deux algorithmes SGD décentralisés : D-Sum et GT-DSum. Le premier fournit une garantie de convergence pour résoudre les problèmes d’optimisation non convexes, tandis que le second, sur la base de D-Sum, introduit la technique de suivi du gradient (Gradient Tracking) pour atténuer les effets de l’hétérogénéité des données.
3.2 Algorithme D-Sum
Déroulement de l’algorithme : 1) Initialiser les paramètres du modèle et le cache de moment de chaque nœud 2) À chaque itération, chaque nœud effectue K mises à jour du modèle (SGD ou SGD avec moment, etc.) basées sur les données locales 3) Après K mises à jour, une moyenne des modèles est agrégée entre les nœuds 4) Passer à l’itération suivante
Innovation de l’algorithme : Introduction d’une équation de mise à jour de moment unifiée, couvrant les méthodes de moment classiques (comme le momentum de Polyak et l’accélération de Nesterov), et fournir une analyse de convergence non convexe.
3.3 Algorithme GT-DSum
Déroulement de l’algorithme : 1) Initialiser les paramètres du modèle, le cache de moment et le traqueur de gradient de chaque nœud 2) À chaque itération, corriger le gradient local à l’aide du traqueur, effectuer K mises à jour du modèle 3) Après K mises à jour, agréger les modèles, les caches de moment et les traqueurs entre les nœuds 4) Mettre à jour le terme de différence du traqueur, passer à l’itération suivante
Innovation de l’algorithme : Sur la base de D-Sum, intégrer la technique de suivi du gradient, de sorte que les directions de mise à jour de chaque nœud convergent progressivement vers la direction d’optimisation globale, atténuant ainsi l’effet de l’hétérogénéité des données.
3.4 Analyse théorique Pour les deux algorithmes, les auteurs ont rigoureusement déduit leurs bornes supérieures de convergence pour les problèmes d’optimisation distribués non convexes et lisses, comparables aux taux de convergence de SGD classique. Il convient de noter que la borne de convergence de GT-DSum ne dépend que du biais de données initial, et non du degré d’hétérogénéité des données au cours de l’ensemble du processus d’entraînement.
- Partie expérimentale
Pour évaluer les performances réelles des méthodes, les auteurs ont mené de nombreuses expériences sur des modèles, des ensembles de données et des environnements dynamiques courants. Les résultats montrent que, pour différents degrés de données non indépendantes et identiquement distribuées, les algorithmes D-Sum et GT-DSum peuvent respectivement améliorer la précision des modèles jusqu’à 35,8% et 57,6% par rapport aux méthodes de référence décentralisées existantes. Parmi eux, GT-DSum présente de meilleures performances de généralisation pour résoudre le problème du biais de données.
- Signification de la recherche
La principale innovation de cet article réside dans la proposition d’un paradigme unifié UMP englobant de multiples méthodes de moment, résolvant simultanément les problèmes d’optimisation non convexe et d’hétérogénéité des données. Par rapport aux méthodes existantes, le paradigme UMP présente les avantages suivants :
1) Unification : En ajustant les paramètres, il peut couvrir de multiples méthodes de moment classiques telles que Heavy Ball, Nesterov Acceleration, etc.
2) Garanties théoriques : Première analyse de convergence pour les méthodes de moment appliquées aux problèmes d’optimisation distribués non convexes.
3) Performances pratiques : Amélioration significative de la précision et de la robustesse des modèles dans des environnements de données hétérogènes.
4) Innovation de paradigme : Fournit de nouvelles pistes pour la conception d’algorithmes futurs dans les domaines de l’optimisation distribuée non convexe et du biais de données.
Ce travail fournit de nouvelles bases théoriques et un cadre algorithmique systématique pour résoudre efficacement les deux principaux défis de l’apprentissage machine distribué.