LDTrack : Suivi dynamique des personnes par des robots de service utilisant des modèles de diffusion

Suivi dynamique des personnes par des robots de service utilisant des modèles de diffusion

Contexte académique

Le suivi des personnes dynamiques dans des environnements encombrés et peuplés est un problème complexe en robotique. En raison de variations intra-classe telles que les occlusions, les déformations de posture et les variations d’éclairage, les méthodes de suivi traditionnelles ont souvent du mal à identifier et à suivre les cibles avec précision. Les méthodes de suivi robotique existantes reposent généralement sur des systèmes de détection et de suivi indépendants, ce qui pose des problèmes d’efficacité computationnelle et de temps réel, en particulier face aux variations intra-classe où l’échec du détecteur peut entraîner une interruption du suivi.

Pour résoudre ces problèmes, cet article propose une nouvelle architecture d’apprentissage profond basée sur des modèles de diffusion latents conditionnels (Conditional Latent Diffusion Models) — le suivi par diffusion latente (Latent Diffusion Track, LDTrack). Cette architecture capture les embeddings temporels des personnes (temporal person embeddings), permettant ainsi de s’adapter aux changements d’apparence des personnes au fil du temps, et réalise un suivi multi-cibles efficace dans des environnements complexes et peuplés.

Source de l’article

Cet article a été co-écrit par Angus Fung, Beno Benhabib et Goldie Nejat, tous issus du Autonomous Systems and Biomechatronics Laboratory (ASBLab) de l’University of Toronto. L’article a été accepté le 17 décembre 2024 et publié en 2025 dans le International Journal of Computer Vision.

Processus de recherche et résultats

Processus de recherche

  1. Conception de l’architecture :

    • L’architecture LDTrack est composée de deux sous-systèmes : l’entraînement et l’inférence. Le sous-système d’inférence extrait les embeddings de caractéristiques des personnes (person feature embeddings) à partir d’images RGB et génère des trajectoires de personnes via le réseau de raffinement itératif de suivi (Iterative Track Refinement Network, ITRN). Le sous-système d’entraînement convertit les boîtes englobantes réelles en représentations dans un espace latent de haute dimension via le réseau d’encodage des caractéristiques latentes (Latent Feature Encoder Network, LFEN), et génère des embeddings de boîtes bruitées via le module de diffusion des boîtes latentes (Latent Box Diffusion, LBD).
  2. Sous-système d’inférence :

    • Réseau d’extraction de caractéristiques par auto-attention (SFEN) : Utilise ResNet-18 et un encodeur Transformer pour extraire les embeddings de caractéristiques des personnes.
    • Réseau de raffinement itératif de suivi (ITRN) : Raffine itérativement les embeddings de boîtes bruitées via un décodeur Transformer pour générer des trajectoires de personnes.
  3. Sous-système d’entraînement :

    • Réseau d’encodage des caractéristiques latentes (LFEN) : Convertit les boîtes englobantes réelles en représentations dans un espace latent de haute dimension.
    • Diffusion des boîtes latentes (LBD) : Génère des embeddings de boîtes bruitées via un processus de diffusion piloté par une chaîne de Markov.
    • Réseau de raffinement itératif de suivi (ITRN) : Génère des prédictions de boîtes englobantes et de classes de personnes via un processus de diffusion inverse.

Résultats principaux

  1. Précision et exactitude du suivi :

    • LDTrack a obtenu des performances exceptionnelles sur plusieurs ensembles de données, en particulier dans des environnements complexes et peuplés. Sur l’ensemble de données InOutdoor (IOD), LDTrack a atteint un MOTA (Multiple Object Tracking Accuracy) de 78,6 %, surpassant significativement les autres méthodes.
    • Sur l’ensemble de données Kinect Tracking Precision (KTP), LDTrack a atteint un MOTA de 92,7 %, améliorant les méthodes existantes de 5 à 62 %.
  2. Comparaison du suivi multi-objets :

    • LDTrack a également surpassé les méthodes de suivi multi-objets existantes sur les ensembles de données MOT17 et MOT20, en particulier dans des environnements à forte densité de population.
  3. Étude d’ablation :

    • Une étude d’ablation a validé les choix de conception de LDTrack, notamment l’utilisation d’un seul pas de temps pour les embeddings, 500 embeddings de boîtes et une dimension d’espace latent de 288.

Conclusion et signification

LDTrack, en introduisant des modèles de diffusion latents conditionnels, permet de mettre à jour dynamiquement les embeddings de trajectoires des personnes dans des environnements complexes et peuplés, s’adaptant aux changements d’apparence des personnes. Cette architecture a démontré des performances supérieures à celles des méthodes de suivi existantes sur plusieurs ensembles de données, en particulier face aux variations intra-classe telles que les occlusions, les déformations de posture et les variations d’éclairage. Le succès de LDTrack montre non seulement le potentiel des modèles de diffusion dans les tâches de suivi robotique, mais ouvre également de nouvelles perspectives pour les applications en temps réel.

Points forts de la recherche

  1. Innovation : LDTrack est la première architecture à appliquer des modèles de diffusion latents conditionnels au suivi dynamique des personnes par des robots, capable de gérer efficacement les variations intra-classe.
  2. Efficacité : Grâce à un cadre de détection et de suivi conjoints, LDTrack présente des avantages significatifs en termes d’efficacité computationnelle et de temps réel.
  3. Généralisation : LDTrack excelle non seulement dans des environnements centrés sur l’homme, mais se généralise également aux tâches de suivi multi-objets dans des environnements urbains.

Travaux futurs

Les recherches futures exploreront l’intégration de méthodes d’apprentissage par contraste (comme TIMCLR) avec LDTrack pour apprendre des représentations de personnes invariantes face aux variations intra-classe. De plus, des tests en temps réel de LDTrack dans des environnements réels seront menés pour valider ses performances dans des applications pratiques.