Apprentissage des dépendances supportant la structure via un transformateur interactif de points clés pour l'estimation de pose des mammifères généraux
Progrès dans l’estimation de la pose des mammifères généraux
Contexte de recherche et problématique
Dans le domaine de la vision par ordinateur, l’estimation de la pose est une tâche fondamentale et importante, dont l’objectif est de localiser les positions des points clés dans les images d’objets cibles. Ces dernières années, l’estimation de la pose humaine a fait des progrès significatifs, mais la recherche sur l’estimation de la pose animale (Animal Pose Estimation) en est encore à ses débuts. Comparée à l’estimation de la pose humaine, l’estimation de la pose animale présente des défis plus importants, principalement pour les raisons suivantes :
- Diversité des espèces : Les différences d’apparence et de posture entre différentes espèces sont énormes. Par exemple, les félins comme les panthères et les chats domestiques présentent des différences significatives en termes de forme, taille et couleur.
- Rareté des données : La taille des ensembles de données d’estimation de la pose animale est bien inférieure à celle des ensembles de données humaines. Par exemple, le plus grand ensemble de données de pose de mammifères, AP-10k, contient environ 10 000 images, tandis que l’ensemble de données COCO en contient plus de 200 000 avec annotations.
- Complexité des variations de posture : Les variations de posture chez les animaux sont beaucoup plus larges. Par exemple, lorsqu’une antilope est debout, la distance entre son nez et ses yeux est plus courte, mais lorsque sa tête est baissée pour boire, la distance entre son nez et ses pattes avant se raccourcit considérablement.
Pour résoudre ces problèmes, les chercheurs ont proposé diverses méthodes, mais la plupart des études optimisent uniquement pour des espèces spécifiques, manquant de généralité. Par conséquent, comment concevoir un modèle capable d’estimer la pose de multiples espèces devient une question urgente à résoudre.
Cet article a été rédigé par Tianyang Xu et al., auteurs issus de l’École d’intelligence artificielle et d’informatique de l’Université Jiangnan et du Département d’informatique et d’ingénierie électronique de l’Université de Surrey au Royaume-Uni. L’article a été accepté le 6 janvier 2025 et publié dans le journal International Journal of Computer Vision.
Contenu de la recherche et flux de travail
a) Processus de recherche et méthodologie
La contribution principale de cette recherche est une nouvelle architecture appelée Keypoint Interactive Transformer (KIT), conçue pour apprendre les dépendances structurelles de niveau instance afin de réaliser une estimation de la pose des mammifères généraux. Voici les principales étapes et méthodes de la recherche :
1. Prétraitement des données et extraction de caractéristiques
L’étude s’appuie sur des ensembles de données tels qu’AP-10k, Animal Kingdom et COCO. Les images d’entrée passent d’abord par un réseau haute résolution (HRNet) pour extraire les caractéristiques des points clés. Le HRNet est connu pour sa capacité à représenter des informations spatiales fines grâce à ses représentations haute résolution. Ensuite, les cartes de caractéristiques sont ajustées via des couches convolutives pour modifier le nombre de canaux, puis aplaties en jetons de points clés (Keypoint Tokens).
2. Transformateur interactif de points clés (KIT)
Le module KIT est l’une des innovations principales de cette recherche, avec les fonctions suivantes : - Mécanisme d’auto-attention : Capture les relations globales entre les points clés via une auto-attention mono-tête (Single-Head Self-Attention), tout en supprimant les indices non pertinents. - Indices de parties du corps (Body Part Prompts) : Génère des indices de parties du corps en regroupant les jetons de points clés, intégrant des informations contextuelles pour améliorer la compréhension sémantique du modèle. - Interactions hiérarchiques : Le module KIT est construit de manière empilée, chaque couche réalisant des interactions entre les points clés via un mécanisme d’auto-attention.
3. Conception de la fonction de perte
Pour optimiser les représentations intermédiaires des caractéristiques, l’étude propose une fonction de perte de régression de carte thermique généralisée (Generalized Heatmap Regression Loss, GHL). Le GHL ajuste dynamiquement la netteté des caractéristiques intermédiaires en appliquant un filtrage laplacien et un lissage aux cartes thermiques, permettant ainsi une meilleure adaptation aux distributions des différents points clés.
4. Stratégie de pondération adaptative
L’étude introduit également une stratégie de pondération adaptative (Adaptive Weight Strategy) pour équilibrer l’importance des différents points clés. Cette stratégie ajuste dynamiquement les poids en fonction de l’erreur de prédiction de chaque point clé, guidant ainsi le modèle à se concentrer davantage sur les points clés difficiles à détecter.
b) Résultats principaux
1. Performances sur l’ensemble de données AP-10k
Sur l’ensemble de validation AP-10k, le modèle KITPose surpasse les méthodes les plus avancées actuelles. Plus précisément : - KITPose-E2C4 atteint 76,6 AP avec une résolution d’entrée de 256×256, surpassant HRNet-W32 de 2,8 AP. - Avec une résolution plus élevée (384×384), KITPose-E2C4 atteint 77,9 AP, démontrant la robustesse du modèle à basse résolution.
2. Performances sur l’ensemble de données Animal Kingdom
Sur l’ensemble de données Animal Kingdom, plus difficile, KITPose montre également d’excellentes performances : - KITPose-E2C6 équipé de HRNet-W32 atteint 58,8 PCK@0,05, surpassant le modèle de base HRNet-W32 (58,5 PCK@0,05). - KITPose-E2C6 équipé de HRNet-W48 atteint 59,1 PCK@0,05, prouvant l’efficacité du modèle dans l’estimation de la pose inter-espèces.
3. Capacités de généralisation sur l’ensemble de données COCO
KITPose n’est pas seulement applicable à l’estimation de la pose animale, mais peut également être transféré directement à l’estimation de la pose humaine. Sur l’ensemble de validation COCO, KITPose-E2C4 atteint 77,3 AP avec une résolution d’entrée de 384×288, surpassant les méthodes les plus avancées actuelles.
c) Conclusion et signification
Le modèle KITPose proposé dans cette étude montre d’excellentes performances sur plusieurs ensembles de données, démontrant sa supériorité et sa capacité de généralisation dans l’estimation de la pose des mammifères généraux. La signification de cette recherche se manifeste principalement dans les aspects suivants : 1. Valeur scientifique : KITPose révèle les corrélations intrinsèques entre les points clés en introduisant des dépendances structurelles de support, offrant de nouvelles perspectives pour les futures recherches en estimation de pose. 2. Valeur applicative : Ce modèle peut être largement utilisé dans des domaines tels que la conservation de la faune et l’analyse du comportement animal, fournissant un soutien technique pour la recherche écologique.
d) Points forts de la recherche
- Module KIT innovant : Grâce au mécanisme d’auto-attention et aux indices de parties du corps, le module KIT capture efficacement les dépendances structurelles de support entre les points clés.
- Perte de régression de carte thermique généralisée : Ajuste dynamiquement la netteté des caractéristiques intermédiaires, renforçant l’adaptabilité du modèle aux distributions des points clés.
- Stratégie de pondération adaptative : Résout le problème de déséquilibre entre différents points clés, améliorant la robustesse du modèle.
e) Autres informations précieuses
La recherche examine également l’impact de différents hyperparamètres sur les performances du modèle, tels que le nombre d’indices de parties du corps et la taille du noyau laplacien. Les expériences montrent qu’un nombre approprié d’indices de parties du corps et une taille de noyau adéquate peuvent améliorer considérablement les performances du modèle.
Conclusion
Cet article, rédigé par Tianyang Xu et al., publié dans International Journal of Computer Vision, propose une nouvelle architecture appelée KITPose pour l’estimation de la pose des mammifères généraux. En introduisant un transformateur interactif de points clés, une perte de régression de carte thermique généralisée et une stratégie de pondération adaptative, KITPose obtient d’excellentes performances sur plusieurs ensembles de données. La recherche ne fait pas qu’avancer l’estimation de la pose animale, elle fournit également des références utiles pour d’autres tâches dans le domaine de la vision par ordinateur.