Apprendre l’invite globale dans l’espace tensoriel de faible rang pour l’apprentissage fédéré hétérogène

Contexte académique

Avec la complexité croissante des modèles d’intelligence artificielle (IA) et les besoins accrus en matière de protection de la vie privée des données, l’apprentissage fédéré (Federated Learning, FL) est devenu un sujet de recherche important en tant que paradigme d’apprentissage automatique distribué. L’apprentissage fédéré permet à plusieurs clients de collaborer pour entraîner un modèle global sans partager leurs données locales, améliorant ainsi la capacité de généralisation du modèle tout en protégeant la confidentialité des données. Cependant, l’apprentissage fédéré fait face à trois défis majeurs dans les applications pratiques : 1) un nombre excessif de paramètres de modèle entraîne une charge de communication importante ; 2) des données non indépendantes et non identiquement distribuées (Non-IID) dégradent les performances du modèle global ; 3) l’hétérogénéité des modèles rend les méthodes traditionnelles d’agrégation fédérée inefficaces.

Pour résoudre ces problèmes, cet article propose une méthode innovante appelée FedGPT, qui apprend un indice global (Global Prompt) dans un espace tensoriel de faible rang pour relever ces défis. Plus précisément, FedGPT utilise des indices (Prompt) plutôt que des paramètres de modèle comme vecteurs de connaissances locales, réduisant ainsi considérablement le volume de communication. Parallèlement, la décomposition en valeurs singulières tensorielles (Tensor Singular Value Decomposition, T-SVD) est utilisée pour extraire les informations globales entre clients, tout en éliminant les informations spécifiques à chaque client. De plus, FedGPT peut également gérer l’hétérogénéité des modèles, permettant à des modèles locaux de différentes architectures de transférer des connaissances via des indices, améliorant ainsi les performances globales.

Source de l’article

Cet article est co-écrit par Lele Fu, Sheng Huang, Yuecheng Li, Chuan Chen, Chuanfu Zhang et Zibin Zheng, tous issus de l’École d’ingénierie des systèmes et de l’École d’ingénierie informatique de l’Université Sun Yat-sen. L’article a été publié en 2025 dans la revue Neural Networks sous le titre Learn the Global Prompt in the Low-Rank Tensor Space for Heterogeneous Federated Learning.

Processus de recherche

1. Contexte et définition du problème

L’objectif de l’apprentissage fédéré est de former un modèle global en collaboration avec plusieurs clients, mais il est confronté à trois défis majeurs dans les applications pratiques : la charge de communication, l’hétérogénéité des données et l’hétérogénéité des modèles. Cet article propose la méthode FedGPT, qui vise à résoudre ces problèmes grâce à l’apprentissage par indices et à la décomposition tensorielle de faible rang.

2. Intégration de l’apprentissage par indices et de l’apprentissage fédéré

L’idée centrale de FedGPT est d’utiliser des indices comme médium d’échange d’informations entre les clients et le serveur. Un indice est une intégration (Embedding) apprenable qui ne nécessite qu’un petit nombre de paramètres pour adapter un modèle pré-entraîné à de nouvelles tâches. Dans le contexte de l’apprentissage fédéré, chaque client reçoit un indice global du serveur et l’entraîne sur ses données locales. Une fois l’entraînement terminé, le client télécharge l’indice local vers le serveur, qui extrait les informations globales via une décomposition tensorielle de faible rang et met à jour l’indice global.

3. Décomposition tensorielle de faible rang

Pour faire face à l’hétérogénéité des données, FedGPT empile les indices des différents clients en un tenseur de troisième ordre et effectue une décomposition en valeurs singulières tensorielles (T-SVD). La T-SVD permet d’extraire les composantes principales du tenseur (c’est-à-dire les informations globales) tout en éliminant les informations redondantes spécifiques aux clients. Les étapes spécifiques sont les suivantes : 1. Empiler les indices des clients en un tenseur de troisième ordre. 2. Décomposer le tenseur via T-SVD pour obtenir des tenseurs orthogonaux et des tenseurs de valeurs singulières. 3. Conserver les composantes principales du tenseur de valeurs singulières et éliminer les composantes redondantes. 4. Générer l’indice global via une moyenne pondérée.

4. Gestion de l’hétérogénéité des modèles

FedGPT réalise le transfert de connaissances entre modèles hétérogènes via l’apprentissage par indices. Comme les indices ne nécessitent qu’un petit nombre de paramètres, des modèles locaux de différentes architectures peuvent échanger des informations de manière efficace, surmontant ainsi les limitations des méthodes traditionnelles d’agrégation fédérée dans des scénarios d’hétérogénéité des modèles.

5. Conception et résultats des expériences

Cet article a mené des expériences sur trois ensembles de données réels : CIFAR10, CIFAR100 et Flower102, validant ainsi l’efficacité de FedGPT. Les résultats expérimentaux montrent que FedGPT excelle dans des scénarios d’hétérogénéité des données et des modèles, surpassant d’autres méthodes avancées d’apprentissage fédéré. Les résultats spécifiques sont les suivants : 1. Expériences sur l’hétérogénéité des données : FedGPT démontre une robustesse remarquable à différents degrés d’hétérogénéité, surpassant des méthodes comme FedAvg, FedProx et Scaffold. 2. Expériences sur l’hétérogénéité des modèles : FedGPT gère efficacement le transfert de connaissances entre modèles hétérogènes, surpassant des méthodes comme FedMD et FedProto. 3. Efficacité de la communication : Le volume de communication de FedGPT n’est que de 3 % de celui de FedAvg, réduisant ainsi considérablement la charge de communication.

Principaux résultats

1. Résultats des expériences sur l’hétérogénéité des données

Sur l’ensemble de données CIFAR10, lorsque le paramètre d’hétérogénéité β est de 0,3, la précision de classification de FedGPT est de 85,26 %, nettement supérieure aux 75,11 % de FedAvg. À mesure que β augmente, les performances de FedGPT s’améliorent progressivement, atteignant une précision de 88,57 % lorsque β est de 1.

2. Résultats des expériences sur l’hétérogénéité des modèles

Sur l’ensemble de données CIFAR100, la précision de classification de FedGPT dans un scénario de modèles hétérogènes est de 66,51 %, surpassant les 64,54 % de FedMD et les 62,33 % de FedProto.

3. Efficacité de la communication

Le volume de communication de FedGPT n’est que de 3 % de celui de FedAvg, réduisant ainsi considérablement la charge de communication. Par exemple, sur l’ensemble de données CIFAR10, le volume de communication de FedGPT est de 0,31 Mo, tandis que celui de FedAvg est de 11,46 Mo.

Conclusion et signification

La méthode FedGPT proposée dans cet article résout efficacement les trois défis de l’apprentissage fédéré (charge de communication, hétérogénéité des données et hétérogénéité des modèles) grâce à l’apprentissage par indices et à la décomposition tensorielle de faible rang. Les résultats expérimentaux montrent que FedGPT excelle sur plusieurs ensembles de données, surpassant d’autres méthodes avancées d’apprentissage fédéré. De plus, l’efficacité de communication de FedGPT est considérablement améliorée, offrant une solution viable pour les applications pratiques.

L’innovation de FedGPT se manifeste principalement dans les deux aspects suivants : 1. L’utilisation d’indices comme vecteurs de connaissances, en extrayant les informations globales via T-SVD, permet une communication efficace et surmonte les impacts négatifs de l’hétérogénéité des données. 2. L’exploration de l’apprentissage par indices dans des scénarios d’hétérogénéité des modèles offre une nouvelle solution pour le transfert de connaissances entre modèles hétérogènes.

Points forts de la recherche

  1. Communication efficace : FedGPT réduit considérablement le volume de communication grâce à l’apprentissage par indices, avec un volume de communication représentant seulement 3 % de celui de FedAvg.
  2. Gestion de l’hétérogénéité des données : La décomposition tensorielle de faible rang permet d’extraire les informations globales, relevant efficacement les défis posés par l’hétérogénéité des données.
  3. Gestion de l’hétérogénéité des modèles : FedGPT permet un transfert de connaissances efficace entre modèles hétérogènes, offrant une nouvelle solution pour l’apprentissage fédéré dans des scénarios d’hétérogénéité des modèles.
  4. Validation expérimentale : Les résultats expérimentaux sur plusieurs ensembles de données réels montrent que FedGPT excelle dans des scénarios d’hétérogénéité des données et des modèles, surpassant d’autres méthodes avancées d’apprentissage fédéré.

Autres informations utiles

Cet article analyse également en détail la complexité computationnelle de FedGPT et prouve sa convergence sous certaines conditions concernant le nombre de tours de communication. De plus, il discute des limites de FedGPT, comme la complexité computationnelle élevée de la T-SVD lors du traitement d’images de grande taille, ce qui peut affecter l’efficacité de l’algorithme. Les recherches futures pourraient explorer davantage comment optimiser l’efficacité computationnelle de la T-SVD et comment mieux aligner les informations sémantiques des indices entre différents clients dans l’apprentissage par indices.