Étiquetage pseudo-dynamique de prototype multicentrique équilibré en classe pour l'adaptation de domaine sans source

Contexte académique et problématique

Ces dernières années, les modèles de réseaux de neurones profonds (Deep Neural Networks, DNNs) ont connu un succès remarquable dans les tâches de vision par ordinateur. Cependant, l’entraînement de ces modèles repose sur de grandes quantités de données annotées. Lorsque ces modèles sont appliqués à de nouveaux domaines cibles non annotés, leur capacité de généralisation est souvent limitée en raison des différences de domaine (domain shift). Pour résoudre ce problème, les techniques d’adaptation de domaine (Domain Adaptation, DA) ont émergé. L’objectif de l’adaptation de domaine est d’améliorer les performances du modèle dans le domaine cible en exploitant les connaissances du domaine source, en particulier lorsque les données cibles ne sont pas annotées.

Cependant, les méthodes traditionnelles d’adaptation de domaine nécessitent généralement l’accès aux données brutes du domaine source, ce qui est souvent irréaliste dans de nombreuses applications pratiques en raison de problèmes de confidentialité des données, de sécurité des données et d’efficacité de transmission des données. Pour résoudre ce problème, l’adaptation de domaine sans accès aux données source (Source-Free Domain Adaptation, SFDA) est devenue une nouvelle direction de recherche. L’objectif de la SFDA est d’adapter le modèle au domaine cible en utilisant uniquement un modèle source pré-entraîné et des données cibles non annotées, sans accéder aux données du domaine source.

Les méthodes existantes de SFDA se divisent principalement en deux catégories : les méthodes basées sur la génération et les méthodes basées sur l’auto-apprentissage. Les méthodes basées sur la génération utilisent des réseaux antagonistes génératifs (GANs) ou des modèles de diffusion pour générer des images de style source, tandis que les méthodes basées sur l’auto-apprentissage attribuent des pseudo-labels (pseudo-labels) aux données cibles à l’aide du modèle source. Cependant, les méthodes existantes basées sur l’auto-apprentissage reposent généralement sur des prototypes monocentriques (monocentric prototype) pour générer des pseudo-labels, ce qui peut entraîner des biais de catégorie (category bias) et des étiquettes bruyantes (noisy labels), en particulier lorsque des différences visuelles significatives existent entre les catégories.

Pour résoudre ces problèmes, cet article propose une stratégie générale de pseudo-labeling par prototypes multicentriques dynamiques équilibrés par classe (General Class-Balanced Multicentric Dynamic Prototype Pseudo-Labeling Strategy, BMD). Cette stratégie améliore significativement les performances des méthodes existantes en introduisant un échantillonnage global équilibré par classe, un clustering multicentrique intra-classe et une génération dynamique de pseudo-labels.

Source de l’article et informations sur les auteurs

Cet article a été co-écrit par Sanqing Qu, Guang Chen, Jing Zhang, Zhijun Li, Wei He et Dacheng Tao. Les auteurs sont affiliés respectivement à l’Université de Tongji, à l’Université de Wuhan, à l’Université des sciences et technologies de Beijing et à l’Université technologique de Nanyang à Singapour. L’article a été publié dans l’International Journal of Computer Vision et a été officiellement publié en 2025.

Méthodologie et processus de recherche

La stratégie BMD proposée dans cet article comprend trois sous-stratégies principales : l’échantillonnage global équilibré par classe, le clustering multicentrique intra-classe et la génération dynamique de pseudo-labels. Voici une description détaillée de chaque sous-stratégie :

1. Échantillonnage global équilibré par classe (Inter-Class Balanced Sampling)

Pour éviter que les classes faciles à transférer (easy-transfer classes) ne dominent progressivement la génération de prototypes, cet article propose une stratégie d’échantillonnage global équilibré par classe. Concrètement, pour chaque catégorie cible, les échantillons les plus susceptibles d’appartenir à cette catégorie sont d’abord sélectionnés parmi les données cibles, puis ces échantillons sont moyennés pour construire un prototype de caractéristiques équilibré par classe. Contrairement aux méthodes existantes, cette stratégie sélectionne les échantillons les plus représentatifs d’un point de vue global, plutôt que de s’appuyer sur des prédictions au niveau des instances locales.

2. Clustering multicentrique intra-classe (Intra-Class Multicentric Clustering)

Pour réduire l’impact des étiquettes bruyantes, cet article propose une stratégie de clustering multicentrique intra-classe. Contrairement à la conception de prototypes monocentriques existants, cette stratégie génère plusieurs prototypes de caractéristiques pour chaque catégorie, fournissant ainsi des limites de décision plus flexibles et précises pour l’attribution des pseudo-labels. Concrètement, l’algorithme classique de K-means est utilisé pour regrouper les échantillons de chaque catégorie, générant ainsi plusieurs prototypes de caractéristiques.

3. Génération dynamique de pseudo-labels (Dynamic Pseudo-Labeling)

Les méthodes existantes mettent généralement à jour les pseudo-labels à des intervalles fixes (par exemple, à chaque époque), ce qui limite l’utilisation efficace des informations de mise à jour du réseau pendant l’entraînement. Pour résoudre ce problème, cet article propose une stratégie de génération dynamique de pseudo-labels basée sur la moyenne mobile exponentielle (Exponential Moving Average, EMA). Cette stratégie met à jour les pseudo-labels au niveau des caractéristiques, améliorant ainsi les performances du modèle sans augmenter significativement les coûts de calcul.

Résultats expérimentaux et contributions

Des expériences approfondies ont été menées sur plusieurs ensembles de données de reconnaissance d’images 2D et de nuages de points 3D, validant l’efficacité et la généralité de la stratégie BMD. Les résultats expérimentaux montrent que BMD améliore significativement les performances des méthodes existantes. Par exemple, sur l’ensemble de données PointDA-10, BMD-v2 a augmenté la précision de la méthode NRC de 52,6 % à 59,2 %.

Les principales contributions de cet article peuvent être résumées comme suit : 1. Une stratégie générale de prototypes multicentriques dynamiques équilibrés par classe (BMD) a été proposée, indépendante du modèle et applicable aux méthodes SFDA existantes basées sur l’auto-apprentissage. 2. Une stratégie d’échantillonnage global équilibré par classe simple mais efficace a été introduite, évitant la domination progressive des classes faciles à transférer dans la génération de prototypes. 3. Une stratégie de clustering multicentrique intra-classe a été proposée, générant plusieurs prototypes de caractéristiques pour chaque catégorie, fournissant ainsi des limites de décision plus précises pour l’attribution des pseudo-labels. 4. Une stratégie de génération dynamique de pseudo-labels a été mise en œuvre, exploitant pleinement les informations de mise à jour du modèle pendant l’entraînement, améliorant ainsi les performances du modèle.

Points forts et signification de la recherche

Les points forts de cette recherche sont les suivants : 1. Échantillonnage équilibré par classe : Grâce à la stratégie d’échantillonnage global équilibré par classe, le problème de biais de catégorie est efficacement évité, améliorant la capacité de généralisation du modèle. 2. Clustering multicentrique : La stratégie de clustering multicentrique intra-classe génère des limites de décision plus flexibles et précises pour les pseudo-labels, réduisant l’impact des étiquettes bruyantes. 3. Génération dynamique de pseudo-labels : La stratégie de génération dynamique de pseudo-labels exploite pleinement les informations de mise à jour du modèle pendant l’entraînement, améliorant ainsi les performances du modèle.

Cette recherche a non seulement une valeur scientifique importante, mais elle fournit également des solutions efficaces aux problèmes d’adaptation de domaine dans des applications pratiques. En particulier, dans un contexte où les problèmes de confidentialité et de sécurité des données sont de plus en plus préoccupants, la technologie SFDA a un large potentiel d’application.

Conclusion et travaux futurs

Cet article propose une stratégie générale de prototypes multicentriques dynamiques équilibrés par classe (BMD) pour l’adaptation de domaine sans accès aux données source. En introduisant un échantillonnage global équilibré par classe, un clustering multicentrique intra-classe et une génération dynamique de pseudo-labels, BMD améliore significativement les performances des méthodes existantes. Les travaux futurs exploreront l’application de cette stratégie à d’autres tâches de vision, telles que la segmentation sémantique et la détection d’objets.