Une étude expérimentale sur l'exploration de transformateurs de vision légers robustes via un pré-entraînement par modélisation d'image masquée
Une étude expérimentale sur l’exploration de puissants transformateurs visuels légers via le pré-entraînement par modélisation d’image masquée
Contexte académique
Ces dernières années, l’apprentissage auto-supervisé (self-supervised learning, SSL) a fait des progrès significatifs dans le domaine de la vision par ordinateur. En particulier, la méthode de pré-entraînement par modélisation d’image masquée (masked image modeling, MIM) a connu un succès remarquable sur les grands transformateurs visuels (vision transformers, ViTs), ce qui a considérablement amélioré les performances des tâches en aval basées sur ces modèles. Cependant, les recherches actuelles se concentrent principalement sur les grands ViTs, et peu d’études ont été menées sur les méthodes de pré-entraînement pour les ViTs légers. De plus, bien que de nombreuses études se soient efforcées de concevoir des architectures complexes de ViTs légers pour améliorer les performances, peu de travaux se sont penchés sur l’optimisation des stratégies de pré-entraînement pour améliorer encore les modèles légers existants. Cet article vise à explorer si le pré-entraînement MIM peut également être efficacement appliqué aux ViTs légers extrêmement simples, et résout ce problème grâce à des observations, analyses et solutions systématiques.
Source de l’article
Cet article a été co-rédigé par Jin Gao, Shubo Lin, Shaoru Wang et plusieurs autres auteurs issus de diverses institutions telles que l’Institut d’automatisation de l’Académie chinoise des sciences, l’École d’intelligence artificielle de l’Université des sciences de l’Académie chinoise, et l’École des sciences et technologies de l’information de l’Université des sciences et technologies de Shanghai. L’article a été accepté par International Journal of Computer Vision en décembre 2024 et sera publié officiellement en 2025.
Contenu de la recherche
Processus de recherche
Cet article adopte un flux de travail observation-analyse-solution pour mener ses recherches. Plus précisément, il commence par observer systématiquement les différences de performance entre différentes méthodes de pré-entraînement en fonction de l’échelle des données de fine-tuning en aval ; puis analyse les similarités des représentations inter-couches et les cartes d’attention, révélant les insuffisances de l’apprentissage en hautes couches du pré-entraînement MIM ; enfin, propose une stratégie de distillation découplée pour améliorer l’efficacité du pré-entraînement des ViTs légers.
Objets d’expérimentation et taille de l’échantillon
Cette étude utilise comme unité expérimentale une version légèrement modifiée du ViT-tiny proposé par Touvron et al. (2021), avec 5,7 millions de paramètres. De plus, elle examine également le modèle Hiérarchique Transformer (Hiera) récemment proposé, avec 6,5 millions de paramètres. Les ensembles de données impliqués incluent ImageNet-1k, ADE20k, LASOT, etc.
Processus expérimental
- Adaptation et comparaison des méthodes de pré-entraînement : Application de diverses méthodes populaires de pré-entraînement MIM (telles que MAE, Simmim, BEiT, etc.) ainsi que des méthodes de pré-entraînement par apprentissage contrastif (contrastive learning, CL) (comme MoCo-v3, DINO) et des méthodes de pré-entraînement entièrement supervisées aux ViTs légers.
- Tests de référence : Évaluation des modèles légers pré-entraînés sur la tâche de classification ImageNet, suivie d’une évaluation de leur transférabilité sur d’autres ensembles de données.
- Détection linéaire et analyse de modèle : Révélation des mécanismes des différentes méthodes de pré-entraînement via la détection linéaire et l’analyse de similarité des représentations inter-couches basée sur CKA (centered kernel alignment), ainsi que l’analyse des cartes d’attention.
- Proposition et validation d’une stratégie de distillation découplée : Proposition d’une stratégie de distillation découplée qui sépare les tâches de reconstruction et de distillation pour améliorer encore les résultats du pré-entraînement MIM.
Résultats principaux
- Un pré-entraînement approprié peut libérer le grand potentiel des ViTs légers : Presque toutes les méthodes de pré-entraînement comparées surpassent l’initialisation aléatoire sur la tâche de classification ImageNet, tandis que le pré-entraînement MIM montre des performances exceptionnelles avec un coût de pré-entraînement modéré.
- Le pré-entraînement MIM permet au ViT-tiny simple d’atteindre des performances similaires aux dérivés ViTs légers les plus récents sur ImageNet : Le ViT-tiny simple amélioré par le pré-entraînement MIM atteint des performances comparables à certains ViTs légers conçus de manière complexe sur la tâche de classification ImageNet.
- Le pré-entraînement auto-supervisé des ViTs légers ne bénéficie guère de l’augmentation “LLM-like” des données : Le pré-entraînement MIM n’a pas montré de bonnes performances sur des ensembles de données plus volumineux, indiquant que la capacité limitée des ViTs légers restreint leur qualité de représentation.
- Bien que le pré-entraînement MIM excelle sur ImageNet, sa performance en transfert sur les tâches en aval est inférieure : En particulier, sur les tâches en aval où les données sont insuffisantes, le pré-entraînement MIM présente des performances inférieures au pré-entraînement CL.
Conclusion
Cet article propose une méthode améliorée pour le pré-entraînement MIM des ViTs légers grâce à des observations, analyses et solutions systématiques. Plus précisément, grâce à une stratégie de distillation découplée, non seulement les ViTs légers pré-entraînés apprennent des informations sémantiques pertinentes pour la reconnaissance dans les couches supérieures, mais ils conservent également les biais inductifs locaux utiles apportés par le pré-entraînement MIM. Les résultats expérimentaux montrent que cette approche a considérablement amélioré les performances sur plusieurs tâches en aval, y compris la classification ImageNet, la segmentation sémantique ADE20k et le suivi d’objets unique LASOT.
Points forts de la recherche
- Découverte importante : Un pré-entraînement approprié peut considérablement améliorer les performances des ViTs légers extrêmement simples, leur permettant d’atteindre des niveaux avancés sur la tâche de classification ImageNet.
- Signification du problème : Résout le goulot d’étranglement du pré-entraînement des ViTs légers, offrant de nouvelles perspectives pour la conception future des modèles légers.
- Innovation méthodologique : La stratégie de distillation découplée proposée est une méthode novatrice qui, en séparant les tâches de reconstruction et de distillation, améliore efficacement les résultats du pré-entraînement MIM.
Autres informations précieuses
Outre les contenus principaux mentionnés ci-dessus, cet article a également effectué des tests de référence complets sur diverses méthodes de pré-entraînement couvrant plusieurs tâches en aval, fournissant des données de référence riches pour les futures recherches. De plus, l’article a rendu publics le code amélioré et les résultats bruts, facilitant la reproduction et l’approfondissement des recherches par d’autres chercheurs.
Cet article révèle, à travers une étude systématique, le potentiel du pré-entraînement MIM sur les ViTs légers et propose une stratégie de distillation découplée efficace, ouvrant de nouvelles directions pour la conception et l’optimisation des modèles légers.