Tirer la cible vers la source : une nouvelle perspective sur la segmentation sémantique adaptative au domaine
Une nouvelle perspective sur l’adaptation de domaine pour la segmentation sémantique : étude de T2S-DA
Contexte et pertinence de l’étude
La segmentation sémantique joue un rôle clé dans la vision par ordinateur, mais ses performances dépendent souvent de la disponibilité de grandes quantités de données annotées. Cependant, l’acquisition de telles données est coûteuse, notamment pour des scénarios complexes. Pour pallier ce problème, de nombreuses recherches se sont orientées vers l’utilisation de données synthétiques, mais ces dernières souffrent généralement d’un écart de domaine (domain gap) avec les scénarios réels, ce qui limite la généralisation des modèles entraînés.
Dans ce contexte, l’adaptation de domaine non supervisée (UDA) est devenue une méthode efficace pour réduire cet écart. Elle vise à transférer les connaissances d’un domaine source annoté à un domaine cible non annoté.
Les méthodes UDA traditionnelles se classent principalement en deux catégories : l’apprentissage adversarial et l’auto-apprentissage. L’apprentissage adversarial aligne les distributions des domaines source et cible, tandis que l’auto-apprentissage utilise des pseudo-étiquettes du domaine cible pour guider l’entraînement. Cependant, ces approches rencontrent des limitations, telles que la faible qualité des pseudo-étiquettes ou une séparation insuffisante des catégories à travers les domaines.
Dans cet article, les auteurs proposent une nouvelle stratégie : rapprocher les caractéristiques du domaine cible de celles du domaine source, en exploitant le domaine source pour construire un espace de représentation robuste et discriminant pour le domaine cible. À cette fin, une méthode nommée T2S-DA (Pulling Target to Source for Domain Adaptation) est introduite, offrant une solution générale et efficace pour la segmentation sémantique en adaptation de domaine.
Origine de l’étude
L’article a été publié dans l’International Journal of Computer Vision et a été rédigé par une équipe de chercheurs de l’Académie Chinoise des Sciences, du Centre pour l’Intelligence Artificielle et la Robotique de Hong Kong et de SenseTime Research. Les auteurs incluent Haochen Wang, Yujun Shen, Jingjing Fei, et al. L’article a été initialement soumis le 28 décembre 2023 et accepté le 22 octobre 2024.
Méthodologie et contributions
Aperçu de la méthode T2S-DA
L’idée centrale de T2S-DA est d’utiliser les caractéristiques du domaine source comme ancrage et d’aligner explicitement les caractéristiques du domaine cible sur celles du domaine source. Contrairement aux approches qui supervisent directement le domaine cible, T2S-DA repose sur les trois innovations clés suivantes :
- Génération d’images pseudo-cibles : Un moteur de traduction d’images (par exemple, l’adaptation en domaine de Fourier - FDA) est utilisé pour transformer les données source en un style visuel proche du domaine cible, tout en conservant leurs annotations.
- Stratégie de pondération dynamique : Cette approche permet de traiter le problème de déséquilibre des classes en segmentation sémantique en augmentant le poids des classes sous-représentées.
- Apprentissage par contraste : Le modèle est formé pour minimiser la distance entre les caractéristiques des domaines source et cible au niveau des catégories.
Stratégie de pondération dynamique
Le déséquilibre des classes dans les tâches de segmentation sémantique est un problème bien connu : certaines catégories telles que « ciel » ou « route » occupent une grande proportion des pixels, tandis que des classes rares comme « poteaux » ou « panneaux » sont sous-représentées. T2S-DA répond à ce défi en ajustant dynamiquement les poids des classes dans la fonction de perte, en se concentrant sur les catégories ayant des performances médiocres.
Détails expérimentaux
Jeux de données
Les expériences sont réalisées sur deux benchmarks bien connus pour l’UDA : - GTA5 → Cityscapes : Transfert depuis un environnement urbain synthétique vers un environnement urbain réel. - SYNTHIA → Cityscapes : Transfert depuis un environnement urbain synthétique réaliste vers un environnement réel.
Configuration expérimentale
- Prétraitement des images : Les images source sont redimensionnées et transformées à l’aide de FDA pour simuler un style visuel proche du domaine cible.
- Paramètres d’entraînement : Un optimiseur AdamW est utilisé avec des taux d’apprentissage adaptés pour l’encodeur et le décodeur, et une stratégie de préchauffage linéaire pour le taux d’apprentissage est appliquée.
Résultats expérimentaux et analyses
Performances dans l’adaptation de domaine
Sur les benchmarks GTA5 → Cityscapes et SYNTHIA → Cityscapes, T2S-DA dépasse de manière significative les méthodes existantes : - GTA5 → Cityscapes : T2S-DA atteint un mIoU de 75,1 %, surpassant HRDA (+1,3 %). - SYNTHIA → Cityscapes : T2S-DA améliore le mIoU de +2,5 % (16 classes) et +2,1 % (13 classes).
Performances dans la généralisation de domaine
Dans les scénarios de généralisation de domaine où les données cibles sont inaccessibles pendant l’entraînement, T2S-DA démontre également une robustesse remarquable, prouvant sa capacité à extraire des représentations invariantes au domaine.
Études d’ablation
- Direction de l’apprentissage par contraste : Les résultats montrent que rapprocher les caractéristiques cibles de celles du domaine source est plus efficace que l’inverse.
- Impact des stratégies d’échantillonnage : La pondération dynamique et un échantillonnage équilibré entre les classes améliorent significativement les performances, notamment pour les catégories rares.
- Qualité de la traduction d’images : L’utilisation d’un moteur de traduction d’images tel que FDA garantit des paires positives fiables, contribuant à un apprentissage efficace des caractéristiques inter-domaines.
Conclusion et perspectives
T2S-DA introduit une nouvelle perspective sur l’adaptation de domaine pour la segmentation sémantique. En rapprochant les caractéristiques du domaine cible de celles du domaine source, T2S-DA construit un espace de représentation catégoriellement discriminant, menant à des performances significativement meilleures.
Perspectives futures
- Amélioration des moteurs de traduction d’images : Développer des modèles capables de générer des images pseudo-cibles réalistes et alignées sémantiquement.
- Application à d’autres tâches : Étendre T2S-DA à des domaines tels que la détection d’objets ou la segmentation d’instances.
- Stratégies dynamiques avancées : Concevoir des mécanismes d’ajustement plus fins pour mieux équilibrer les performances sur différentes catégories.
En conclusion, T2S-DA représente une avancée significative dans le domaine de l’UDA et de la généralisation de domaine, ouvrant la voie à de nouvelles recherches et applications.