Seaformer++ : Transformateur axial à compression améliorée pour la reconnaissance visuelle mobile
SEAFormer++ - Une architecture Transformer efficace conçue pour la reconnaissance visuelle mobile
Contexte de recherche et problématique
Ces dernières années, le domaine de la vision par ordinateur a connu un changement majeur, passant des réseaux neuronaux convolutionnels (CNN) aux méthodes basées sur les Transformers. Cependant, bien que les Vision Transformers démontrent une capacité exceptionnelle à modéliser le contexte global dans de nombreuses tâches, leur coût de calcul élevé et leurs besoins en mémoire les rendent difficiles à déployer sur des appareils mobiles, en particulier pour traiter des images haute résolution. Pour répondre aux exigences des appareils mobiles en termes de faible latence et de performances élevées, les chercheurs ont proposé diverses méthodes légères, telles que les mécanismes d’attention locale, l’attention axiale (Axial Attention) et la transmission dynamique de messages graphiques. Mais ces approches ne parviennent toujours pas à résoudre pleinement le problème de latence élevée avec des entrées haute résolution.
Pour relever ce défi, Qiang Wan et al. ont proposé Squeeze-Enhanced Axial Transformer (SEAFormer), qui vise à réduire considérablement la complexité de calcul tout en maintenant des performances élevées grâce à une conception innovante du module d’attention, permettant ainsi une segmentation sémantique mobile efficace. De plus, les auteurs ont introduit une technique de distillation multi-résolution basée sur la remontée de caractéristiques, optimisant encore la vitesse d’inférence et la précision du modèle.
Source de l’article et informations sur les auteurs
Cet article a été coécrit par Qiang Wan (Université Fudan), Zilong Huang (ByteDance), Jiachen Lu (Université Fudan), Gang Yu (Tencent) et Li Zhang (Université Fudan), et publié en janvier 2025 dans la revue International Journal of Computer Vision. Cette recherche a bénéficié du soutien de la Fondation nationale des sciences naturelles de Chine (numéro de projet 62376060).
Contenu de la recherche et processus expérimental
a) Flux de travail de la recherche
Cette étude comprend plusieurs parties clés :
1. Conception du module principal : Squeeze-Enhanced Axial Attention (SEA Attention)
Le SEA Attention est le composant central du SEAFormer, conçu pour extraire les informations sémantiques globales et compléter les détails locaux via une stratégie de “compression-renforcement”. Plus précisément : - Phase de compression : Les cartes de caractéristiques d’entrée sont compressées de manière adaptative le long des axes horizontal ou vertical pour générer des représentations compactes en ligne ou en colonne. - Phase de renforcement : Les détails locaux sont améliorés via une couche de convolution séparable en profondeur, combinée avec les caractéristiques globales compressées pour produire les caractéristiques finales. - Incorporation de position : Pour résoudre la perte d’informations de position lors de la compression, les auteurs ont introduit le Squeeze Axial Position Embedding, permettant au modèle de percevoir les informations de position des caractéristiques compressées.
2. Architecture réseau à deux branches
Le SEAFormer adopte une structure à deux branches, incluant une branche contextuelle (Context Branch) et une branche spatiale (Spatial Branch) : - Branche contextuelle : Se concentre sur la capture des informations sémantiques de haut niveau via l’empilement de plusieurs couches SEAFormer. - Branche spatiale : Préserve les détails spatiaux de bas niveau et améliore les informations sémantiques en fusionnant les caractéristiques de la branche contextuelle. - Bloc de fusion (Fusion Block) : Fusionne les caractéristiques des deux branches via une multiplication sigmoïde, identifiée comme la meilleure méthode de fusion.
3. Technique de distillation multi-résolution
Pour réduire davantage la latence d’inférence, les auteurs ont proposé un cadre de distillation multi-résolution basé sur la remontée de caractéristiques : - Modèle étudiant : Entraîné avec des entrées à basse résolution, il utilise des modules MobileNetV2 pour remonter les caractéristiques afin de correspondre à la résolution du modèle enseignant. - Fonction de perte : Inclut des pertes de classification, de similarité inter-modèles, de similarité des caractéristiques et de sortie, garantissant que le modèle étudiant imite efficacement le comportement du modèle enseignant.
4. Paramètres expérimentaux
- Jeux de données : ADE20K, Cityscapes, Pascal Context et COCO-Stuff.
- Métriques d’évaluation : mIoU (Mean Intersection over Union), nombre de paramètres (Params), nombre d’opérations en virgule flottante (FLOPs) et latence d’inférence (Latency).
- Plateforme matérielle : Toutes les expériences ont été réalisées sur un seul processeur Qualcomm Snapdragon 865, utilisant uniquement le cœur CPU ARM pour les tests.
b) Résultats principaux
1. Performances du SEAFormer
Les expériences sur l’ensemble de validation ADE20K montrent que le SEAFormer surpasse les méthodes existantes sur plusieurs indicateurs : - Petit modèle (SEAFormer-Tiny) : mIoU atteint 36,8 %, avec une latence de seulement 41 ms. - Modèle moyen (SEAFormer-Small) : Le mIoU augmente à 39,7 %, avec une latence de 68 ms. - Grand modèle (SEAFormer-Large) : mIoU atteint 43,8 %, avec une latence de 369 ms.
Comparé au TopFormer (le Transformer léger le plus avancé actuellement), le SEAFormer non seulement améliore le mIoU (jusqu’à +8,3 %), mais réduit également significativement la latence (réduction minimale de 16 %).
2. Efficacité de la distillation multi-résolution
En introduisant la technique de distillation multi-résolution, la version SEAFormer++ (KD) optimise encore les performances : - Sur l’ensemble de validation ADE20K, le SEAFormer-B++ (KD) atteint un mIoU de 39,5 % tout en réduisant la latence à 55 ms. - Comparé aux méthodes traditionnelles de distillation à basse résolution, la distillation multi-résolution améliore le mIoU de 3,4 points (35,5 vs. 32,1).
3. Performances dans d’autres tâches
Outre la segmentation sémantique, le SEAFormer montre également des performances exceptionnelles dans les tâches de classification d’images et de détection d’objets : - Classification d’images : Sur le jeu de données ImageNet-1K, le SEAFormer-L++ atteint une précision Top-1 de 80,6 %, avec une latence de seulement 61 ms. - Détection d’objets : Sur le jeu de données COCO, le SEAFormer-L++ obtient une valeur AP de 40,2 %, surpassant largement des modèles de référence comme MobileNetV3.
c) Conclusion et signification
Valeur scientifique
Le SEAFormer comble le vide des Transformateurs efficaces et adaptés aux appareils mobiles, offrant un équilibre optimal entre performance et efficacité dans les tâches de segmentation sémantique grâce à une conception innovante du mécanisme d’attention et à une architecture à deux branches.
Valeur applicative
Le SEAFormer n’est pas seulement adapté à la segmentation sémantique, mais peut également être étendu à des tâches telles que la classification d’images et la détection d’objets, démontrant son potentiel en tant que réseau principal polyvalent et adapté aux appareils mobiles. De plus, la technique de distillation multi-résolution offre de nouvelles perspectives pour l’optimisation des modèles dans des environnements à ressources limitées.
d) Points forts de la recherche
- Mécanisme d’attention innovant : Le SEA Attention réduit considérablement la complexité de calcul tout en préservant les informations sémantiques globales et les détails locaux grâce à une compression adaptative et un renforcement par convolution.
- Architecture à deux branches efficace : La conception synergique des branches contextuelles et spatiales permet au modèle de capturer des informations sémantiques riches à différentes échelles.
- Technique de distillation multi-résolution : La migration de connaissances entre modèles haute et basse résolution via la remontée de caractéristiques réduit considérablement la latence d’inférence.
- Applications variées : Le SEAFormer excelle dans plusieurs tâches, notamment la segmentation sémantique, la classification d’images et la détection d’objets, prouvant sa polyvalence et sa robustesse.
e) Autres informations utiles
L’article met à disposition le code et les modèles sur GitHub. De plus, les auteurs analysent en détail l’impact des différents modules de remontée et des configurations de fonctions de perte, fournissant des références précieuses pour les recherches futures.
Résumé
La recherche sur le SEAFormer++ résout non seulement les goulets d’étranglement liés à la segmentation sémantique haute résolution sur les appareils mobiles, mais optimise également l’efficacité du modèle grâce à la technique de distillation multi-résolution. Son concept de conception innovant et son large champ d’application établissent un nouveau standard pour le développement de modèles légers dans le domaine de la vision par ordinateur.