Un cadre de transfert de connaissances assisté par mémoire avec anticipation curriculaire pour la détection d'activités en ligne faiblement supervisée

Contexte et pertinence de l’étude

Ces dernières années, la détection d’activités en ligne faiblement supervisée (Weakly Supervised Online Activity Detection, WS-OAD), en tant que sujet important de compréhension vidéo avancée, a suscité une attention croissante. Son objectif principal est de détecter image par image les activités en cours dans des vidéos en streaming, en s’appuyant uniquement sur des annotations vidéo peu coûteuses. Cette tâche est précieuse dans de nombreux contextes pratiques, notamment la conduite autonome, la surveillance publique, la navigation robotique et la réalité augmentée.

Bien que les méthodes supervisées classiques (Fully Supervised Methods) aient réalisé des avancées significatives dans la détection d’activités en ligne (Online Activity Detection, OAD), elles reposent fortement sur des annotations détaillées image par image (Frame-level Annotations). Ces annotations sont coûteuses et sujettes au bruit, ce qui limite la scalabilité des modèles. Les approches faiblement supervisées visent à surmonter ce problème, mais en raison des contraintes en ligne (Online Constraint) et de la rareté des signaux de supervision, les méthodes existantes rencontrent encore des défis majeurs dans la classification et l’identification des débuts d’activités. Par conséquent, comment exploiter efficacement les connaissances hors ligne pour améliorer les performances des modèles reste une question centrale de cette recherche.

Pour répondre à ces défis, l’article intitulé « A Memory-Assisted Knowledge Transferring Framework with Curriculum Anticipation for Weakly Supervised Online Activity Detection » propose un cadre de distillation de connaissances assisté par mémoire (Memory-Assisted Knowledge Distillation Framework), combiné à une stratégie d’apprentissage par curriculum (Curriculum Learning), pour réaliser une anticipation progressive des sémantiques futures et améliorer les performances en détection d’activités en ligne.


Origine et auteur de l’article

Cet article a été coécrit par des chercheurs de l’Université des Postes et Télécommunications de Nanjing (Nanjing University of Posts and Telecommunications) : Tianshan Liu et Bing-kun Bao, de l’Université Polytechnique de Hong Kong (The Hong Kong Polytechnic University) : Kin-Man Lam, ainsi que du laboratoire Peng Cheng de Shenzhen (Peng Cheng Laboratory). Il a été publié dans l’International Journal of Computer Vision (DOI: https://doi.org/10.1007/s11263-024-02279-1). L’article a été soumis le 19 juillet 2023 et accepté le 10 octobre 2024.


Méthodologie et cadre technique

Conception globale du cadre

Le modèle proposé repose sur une architecture enseignant-étudiant (Teacher-Student Framework), où : 1. Modèle enseignant (Teacher Model) : Fonctionnant hors ligne, il apprend les informations contextuelles complètes des séquences vidéo entières et stocke les prototypes d’activités dans une mémoire externe. 2. Modèle étudiant (Student Model) : Fonctionnant en ligne, il utilise uniquement les observations actuelles et passées pour faire des prédictions image par image, tout en apprenant progressivement les sémantiques futures à travers une stratégie d’apprentissage par curriculum.

Caractéristiques du cadre : - Assistance mémoire : Introduction d’une banque de mémoire externe (Memory Bank) pour stocker les prototypes d’activités apprises hors ligne, comblant ainsi l’écart d’information entre les modèles en ligne et hors ligne. - Apprentissage par curriculum : Ajustement dynamique de la proportion d’états futurs fournis, entraînant progressivement le modèle étudiant en passant d’un apprentissage « facile » à « difficile ».


Mise en œuvre technique

1. Architecture enseignant-étudiant assistée par mémoire

Le modèle enseignant extrait des caractéristiques de séquences vidéo entières, produit des scores prédictifs et stocke les sémantiques d’activités à long terme dans une banque de mémoire. Ces prototypes d’activités sont mis en correspondance avec les entrées via un mécanisme de similarité cosinus, fournissant un contexte essentiel au modèle étudiant.

Le modèle étudiant, avec des observations limitées, apprend progressivement les sémantiques futures grâce à des requêtes apprenables (Learnable Queries) introduites par étapes dans un cadre d’apprentissage par curriculum.


2. Stratégie d’apprentissage par curriculum

L’article propose un apprentissage par curriculum dynamique (Dynamic Curriculum Learning) ajustant la difficulté en fonction de la qualité des prédictions. Initialement, des cadres futurs réels sont introduits, progressivement remplacés par des requêtes apprenables. Cette stratégie adaptative prévient l’accumulation d’erreurs.


3. Mécanisme de distillation des connaissances

La méthode utilise une distillation de connaissances à deux niveaux (Dual-Level Knowledge Distillation) : - Distillation au niveau des représentations (Representation-Level Distillation) : Le modèle étudiant imite les caractéristiques locales critiques du modèle enseignant, en se concentrant sur les transitions entre activité et arrière-plan. - Distillation au niveau des prédictions (Prediction-Level Distillation) : Les pseudo-étiquettes cadre par cadre générées par le modèle enseignant guident le modèle étudiant, offrant une supervision détaillée.


Points innovants et contributions

  1. Utilisation de la mémoire : Une mémoire externe stable stocke les prototypes d’activités à long terme, aidant à la fois à la formation et à l’inférence.
  2. Amélioration par curriculum : Une stratégie adaptative ajuste la difficulté de l’apprentissage pour améliorer la capacité d’anticipation des sémantiques futures.
  3. Stratégie de distillation duale : Une combinaison efficace de distillation au niveau des représentations et des prédictions pour améliorer les performances.

Résultats expérimentaux

Conception expérimentale et métriques d’évaluation

Les expériences ont été menées sur trois ensembles de données vidéo longues non tronquées : THUMOS14, ActivityNet1.2 et ActivityNet1.3. Les performances sont évaluées en termes de précision moyenne par cadre (Mean Frame-wise Average Precision, F-AP) et précision moyenne par point (Point-wise Average Precision, P-AP).


Analyse des résultats expérimentaux

1. Comparaison globale

  • Sur THUMOS14, la méthode atteint une F-AP de 55,6 % (faible supervision), surpassant les méthodes concurrentes.
  • Sur ActivityNet1.2, la méthode obtient une F-AP de 68,3 %, avec des améliorations constantes sur tous les seuils.

2. Impact de la mémoire

Les expériences d’ablation montrent que la mémoire améliore significativement les performances en stockant des sémantiques discriminantes. Une régularisation par parcimonie renforce davantage la robustesse.

3. Apprentissage par curriculum

La stratégie dynamique dépasse les approches fixes, montrant l’importance d’une adaptation en fonction de la difficulté d’anticipation.

4. Distillation des connaissances

Les pertes de distillation au niveau des représentations et des prédictions contribuent à des gains significatifs, démontrant leur complémentarité.


Visualisation et interprétation

  • Résultats de détection : La méthode identifie avec précision les transitions d’activités complexes et assure une forte confiance dans les prédictions.
  • Représentations apprises : Les caractéristiques améliorées montrent des clusters plus compacts, maintenant les relations inter-classes.

Conclusion et perspectives

L’article propose un cadre novateur combinant mémoire et apprentissage par curriculum pour résoudre la détection d’activités en ligne faiblement supervisée. Cette approche flexible et efficace peut être étendue à d’autres applications complexes. De futures recherches peuvent explorer son déploiement à grande échelle et optimiser davantage sa complexité computationnelle.