Vers la détection d'interaction humain-objet en zéro-shot via l'intégration vision-langage
Recherche sur la détection d’interaction humain-objet zéro-shot basée sur l’intégration visuelle et linguistique
Contexte académique
La détection d’interaction humain-objet (Human-Object Interaction, HOI) est un domaine de recherche important en vision par ordinateur, visant à identifier les interactions entre les humains et les objets dans les images. Les méthodes traditionnelles de détection HOI reposent principalement sur l’apprentissage supervisé, c’est-à-dire qu’elles nécessitent une grande quantité de données annotées manuellement pour entraîner les modèles. Cependant, cette approche a une capacité de généralisation limitée face à des catégories d’objets jamais vues auparavant. De plus, la diversité et la complexité des interactions humain-objet dans le monde réel rendent l’annotation manuelle de toutes les catégories possibles d’interactions à la fois chronophage et laborieuse.
Ces dernières années, avec le développement rapide des modèles visuels-linguistiques (Vision-Language Models, VLM), l’apprentissage zéro-shot (Zero-Shot Learning) est devenu un domaine de recherche populaire. L’apprentissage zéro-shot vise à permettre aux modèles de reconnaître des catégories jamais rencontrées pendant l’entraînement. Dans ce contexte, les auteurs proposent un nouveau cadre appelé “Intégration des connaissances pour HOI” (Knowledge Integration to HOI, KI2HOI), visant à améliorer les performances de la détection HOI zéro-shot en intégrant les connaissances des modèles visuels-linguistiques.
Source de l’article
Cet article a été co-écrit par Weiying Xue, Qi Liu, Yuxiao Wang, Zhenao Wei, Xiaofen Xing et Xiangmin Xu, tous affiliés à la South China University of Technology (Université de Technologie de Chine du Sud). L’article a été publié dans la revue Neural Networks, volume 187, 2025, avec le numéro d’article 107348.
Processus de recherche
1. Conception du cadre de recherche
L’idée centrale du cadre KI2HOI est d’améliorer les performances de la détection HOI zéro-shot en intégrant les connaissances des modèles visuels-linguistiques. Plus précisément, le cadre comprend les modules principaux suivants :
- Encodeur visuel (Visual Encoder) : Extrait les caractéristiques visuelles globales de l’image.
- Apprentissage des caractéristiques verbales (Verb Feature Learning) : Extrait les caractéristiques liées aux interactions via des requêtes verbales (Verb Queries).
- Interacteur d’instances (Instance Interactor) : Localise les paires humain-objet et classe les catégories d’objets.
- Représentation sémantique des interactions (Interaction Semantic Representation, ISR) : Intègre les connaissances visuelles et linguistiques pour générer des représentations d’interactions.
2. Encodeur visuel
L’encodeur visuel est basé sur le modèle DETR (Detection Transformer), utilisant ResNet-50 comme réseau principal. Pour améliorer l’extraction des caractéristiques globales, les auteurs proposent un encodeur de paires HO (HO-Pair Encoder), composé d’un encodeur local et d’un générateur de contexte global, capable de capturer efficacement les informations contextuelles dans l’image.
3. Apprentissage des caractéristiques verbales
Le module d’apprentissage des caractéristiques verbales extrait les caractéristiques liées aux interactions via l’interaction des requêtes verbales avec les caractéristiques visuelles globales. Plus précisément, les auteurs conçoivent un module combinant l’auto-attention et l’attention multi-têtes, ainsi qu’une couche de réseau feed-forward (Feed-Forward Network, FFN) pour mettre à jour les requêtes verbales.
4. Représentation sémantique des interactions
Le module de représentation sémantique des interactions génère des représentations d’interactions en intégrant les connaissances visuelles et linguistiques. Plus précisément, les auteurs conçoivent un décodeur de représentation d’interactions, qui combine les caractéristiques visuelles et spatiales via un mécanisme d’attention croisée multi-têtes, améliorant ainsi la capacité de représentation des interactions.
5. Entraînement et inférence
Pendant la phase d’entraînement, les auteurs utilisent l’algorithme hongrois (Hungarian Algorithm) pour faire correspondre les prédictions aux valeurs réelles et conçoivent plusieurs fonctions de perte, y compris la perte de régression des boîtes englobantes et la perte de classification des interactions. Pendant la phase d’inférence, le modèle génère les résultats finaux de prédiction HOI en intégrant les scores des humains, des objets et des verbes.
Principaux résultats
1. Détection zéro-shot
Les auteurs ont mené des expériences avec plusieurs configurations zéro-shot sur le jeu de données HICO-DET, montrant que KI2HOI excelle dans la reconnaissance des catégories d’interactions jamais vues, en particulier pour les catégories rares (Rare Categories). Par exemple, dans le cadre de combinaisons non vues prioritaires aux rares (RF-UC), KI2HOI a amélioré la précision moyenne (mAP) de 23,26 % par rapport à la meilleure méthode existante pour les catégories non vues.
2. Détection entièrement supervisée
Pour vérifier la capacité de généralisation du modèle, les auteurs ont également mené des expériences entièrement supervisées sur les jeux de données HICO-DET et V-COCO. Les résultats montrent que KI2HOI surpasse les méthodes existantes pour toutes les catégories et les catégories rares, en particulier pour les catégories rares.
3. Analyse de robustesse
Les auteurs ont également étudié la robustesse du modèle avec différentes quantités de données. Les résultats montrent que même avec une réduction de 25 % des données d’entraînement, KI2HOI surpasse toujours de manière significative les méthodes existantes pour les catégories rares, démontrant son potentiel dans des applications réelles.
Conclusion et signification
Le cadre KI2HOI améliore significativement les performances de la détection HOI zéro-shot en intégrant les connaissances des modèles visuels-linguistiques. Ce cadre excelle non seulement dans les configurations zéro-shot, mais montre également une forte capacité de généralisation dans les configurations entièrement supervisées. De plus, KI2HOI se distingue particulièrement dans les catégories rares, offrant une nouvelle perspective pour résoudre le problème de la distribution à longue queue dans la détection HOI.
Points forts de la recherche
- Conception innovante du cadre : Le cadre KI2HOI améliore significativement les performances de la détection HOI zéro-shot en intégrant les connaissances des modèles visuels-linguistiques.
- Forte capacité de généralisation : KI2HOI excelle non seulement dans les configurations zéro-shot, mais montre également une forte capacité de généralisation dans les configurations entièrement supervisées.
- Analyse de robustesse : Même avec une réduction des données d’entraînement, KI2HOI surpasse toujours de manière significative les méthodes existantes pour les catégories rares, démontrant son potentiel dans des applications réelles.
Autres informations utiles
Cet article offre de nouvelles orientations de recherche dans le domaine de la détection HOI, en particulier dans l’exploration de l’apprentissage zéro-shot et des problèmes de distribution à longue queue, ce qui présente une valeur académique et des applications pratiques importantes.