Apprentissage continu des représentations visuelles conjuguées par des flux de mouvement d'ordre supérieur
Apprentissage continu des représentations visuelles conjuguées via des flux de mouvement d’ordre supérieur : étude du modèle CMOSFET
Contexte académique
Dans le domaine de l’intelligence artificielle et de la vision par ordinateur, l’apprentissage continu (Continual Learning) à partir de flux de données visuelles continues constitue un défi de longue date. Les méthodes traditionnelles d’apprentissage automatique reposent généralement sur l’hypothèse de données indépendantes et identiquement distribuées (i.i.d.), c’est-à-dire que toutes les données d’entraînement sont statiques et disponibles pendant l’entraînement. Cependant, dans le monde réel, les données visuelles sont souvent continues et non i.i.d., ce qui pose des difficultés importantes pour l’entraînement des modèles. De plus, la plupart des méthodes d’apprentissage non supervisé existantes dépendent de vastes ensembles de données d’entraînement hors ligne, ce qui contraste fortement avec la manière dont les humains et les animaux apprennent en expérimentant continuellement leur environnement.
Pour résoudre ces problèmes, Simone Marullo, Matteo Tiezzi, Marco Gori et Stefano Melacci ont proposé un nouveau modèle d’apprentissage continu non supervisé, appelé CMOSFET (Continual Motion-based Self-supervised Feature Extractor). L’idée centrale de ce modèle est de guider l’extraction de caractéristiques via des informations de mouvement, permettant ainsi un apprentissage en ligne à partir d’un seul flux vidéo. Les informations de mouvement jouent un rôle crucial dans la perception visuelle, comme l’ont montré les premières études en psychologie (par exemple, les principes de Gestalt), qui indiquent que le mouvement est un indice fondamental de la perception visuelle. Ainsi, le modèle CMOSFET estime des flux de mouvement à plusieurs niveaux (du flux optique traditionnel aux flux de mouvement d’ordre supérieur) pour guider l’extraction de caractéristiques, permettant ainsi un apprentissage continu des représentations visuelles.
Source de l’article
Cet article a été co-écrit par Simone Marullo (Département de génie informatique, Université de Florence), Matteo Tiezzi (Institut italien de technologie), Marco Gori et Stefano Melacci (Département de génie informatique et de mathématiques, Université de Sienne), et publié en 2025 dans la revue Neural Networks. L’article, intitulé Continual Learning of Conjugated Visual Representations through Higher-Order Motion Flows, explore comment réaliser un apprentissage continu des représentations visuelles via des flux de mouvement d’ordre supérieur.
Processus de recherche
1. Conception du modèle
Le cœur du modèle CMOSFET est une architecture de réseau neuronal à deux branches, utilisée respectivement pour extraire des caractéristiques au niveau des pixels et estimer des flux de mouvement au niveau des pixels. L’entrée du modèle est une séquence continue d’images, chaque image ayant une résolution de W×H. L’objectif du modèle est d’extraire progressivement des caractéristiques robustes à partir du flux vidéo et d’estimer des flux de mouvement à plusieurs niveaux d’abstraction.
1.1 Flux de caractéristiques à plusieurs niveaux
Le modèle CMOSFET extrait des caractéristiques et des flux de mouvement à plusieurs niveaux. L’extracteur de caractéristiques de chaque couche (f^l_t) reçoit la sortie de la couche précédente et génère la représentation des caractéristiques de la couche actuelle. Parallèlement, l’estimateur de flux de mouvement de chaque couche (δ^l_t) estime le flux de mouvement de cette couche en se basant sur les caractéristiques de la couche actuelle et de la couche précédente. De cette manière, le modèle peut non seulement estimer le flux optique traditionnel de bas niveau, mais aussi des flux de mouvement d’ordre supérieur, qui sont généralement associés à des caractéristiques plus abstraites.
1.2 Relation conjuguée entre caractéristiques et mouvement
Une innovation importante du modèle CMOSFET réside dans la relation conjuguée entre les caractéristiques et les flux de mouvement. Plus précisément, le modèle contraint la cohérence entre les caractéristiques et les flux de mouvement via une fonction de perte conjuguée (L^l_conj). Cette fonction de perte se compose de trois parties : (i) la cohérence entre les caractéristiques de la couche actuelle et le flux de mouvement ; (ii) la cohérence entre les caractéristiques de la couche actuelle et le flux de mouvement de la première couche ; (iii) la cohérence entre le flux de mouvement de la couche actuelle et les caractéristiques de la couche précédente. De cette manière, le modèle garantit que les caractéristiques et les flux de mouvement restent cohérents à différents niveaux.
2. Apprentissage auto-supervisé par contraste
Pour éviter que le modèle ne converge vers des solutions triviales (comme la génération de caractéristiques spatialement uniformes), CMOSFET introduit une fonction de perte de contraste auto-supervisée (L^l_self). Cette fonction de perte détermine les paires d’échantillons positifs et négatifs en fonction des informations de mouvement. Plus précisément, les paires d’échantillons positifs sont composées de pixels ayant des modes de mouvement similaires, tandis que les paires d’échantillons négatives sont composées de pixels ayant des modes de mouvement différents. De cette manière, le modèle peut améliorer la capacité discriminative des caractéristiques grâce aux informations de mouvement.
2.1 Stratégie d’échantillonnage
En raison de la complexité de calcul de la perte de contraste, CMOSFET utilise une stratégie d’échantillonnage basée sur le mouvement et les caractéristiques. Plus précisément, le modèle sélectionne un ensemble de pixels pour l’apprentissage par contraste en fonction des informations de mouvement et de l’activation des caractéristiques. Cette stratégie d’échantillonnage permet non seulement de réduire les coûts de calcul, mais aussi de s’assurer que le modèle se concentre sur les zones importantes du flux vidéo.
3. Apprentissage dans le temps
Le modèle CMOSFET traite chaque paire d’images consécutives en ligne. Le modèle assure la stabilité temporelle grâce à un apprenant rapide (GRA) et un apprenant lent (EMA). L’apprenant rapide met à jour les paramètres via la descente de gradient, tandis que l’apprenant lent met à jour les paramètres via une moyenne mobile exponentielle (EMA). De cette manière, le modèle peut maintenir sa capacité d’apprentissage tout en réduisant les problèmes d’oubli catastrophique (Catastrophic Forgetting).
Résultats principaux
1. Configuration expérimentale
Le modèle CMOSFET a été évalué sur plusieurs flux vidéo, y compris des vidéos synthétiques d’environnements 3D et des vidéos du monde réel. L’objectif principal des expériences était d’évaluer la capacité du modèle à extraire des caractéristiques via une tâche de classification au niveau des pixels. Plus précisément, le modèle extrait des caractéristiques lors de la phase d’apprentissage non supervisé, puis utilise ces caractéristiques pour la classification lors de la phase d’évaluation.
2. Résultats quantitatifs
Les résultats expérimentaux montrent que le modèle CMOSFET surpasse les modèles existants d’apprentissage continu non supervisé sur plusieurs flux vidéo. En particulier, sur les vidéos du monde réel (comme rat et horse), les performances de CMOSFET sont nettement supérieures à celles des autres modèles. De plus, le nombre de paramètres du modèle CMOSFET est relativement faible, avec seulement 2,3 millions, ce qui est bien inférieur à celui de son principal concurrent (17,8 millions), indiquant que CMOSFET peut générer des représentations de caractéristiques plus compactes et discriminatives.
3. Résultats qualitatifs
Grâce à une analyse visuelle, les chercheurs ont constaté que le modèle CMOSFET est capable d’estimer avec précision les flux de mouvement dans les vidéos et de générer des représentations de caractéristiques discriminatives. En particulier, dans les vidéos avec des arrière-plans complexes, CMOSFET parvient à séparer efficacement les objets cibles et obtient de bons résultats dans les tâches de classification.
Conclusion et signification
Le modèle CMOSFET, en introduisant des flux de mouvement à plusieurs niveaux et un apprentissage auto-supervisé par contraste, a réussi à réaliser un apprentissage continu non supervisé à partir d’un seul flux vidéo. Ce modèle est non seulement capable de générer des représentations de caractéristiques discriminatives, mais aussi d’estimer des flux de mouvement à plusieurs niveaux d’abstraction. Les résultats expérimentaux montrent que CMOSFET surpasse les modèles existants d’apprentissage continu non supervisé sur plusieurs flux vidéo, et obtient également de bons résultats sur des vidéos du monde réel.
Points forts de la recherche
- Flux de mouvement à plusieurs niveaux : Le modèle CMOSFET, en estimant des flux de mouvement à plusieurs niveaux, permet un apprentissage continu des représentations visuelles. Cette innovation permet au modèle de capturer les informations de mouvement à différents niveaux d’abstraction dans les vidéos.
- Apprentissage auto-supervisé par contraste : En introduisant une fonction de perte de contraste basée sur les informations de mouvement, CMOSFET évite les solutions triviales et génère des représentations de caractéristiques discriminatives.
- Apprentissage en ligne et stabilité temporelle : CMOSFET, en combinant un apprenant rapide et un apprenant lent, assure la stabilité temporelle de l’apprentissage en ligne, réduisant ainsi les problèmes d’oubli catastrophique.
Travaux futurs
Bien que le modèle CMOSFET obtienne de bons résultats sur plusieurs flux vidéo, il présente encore certaines limites. Par exemple, le modèle peut rencontrer des difficultés dans des scènes avec des arrière-plans en mouvement rapide ou des scènes statiques. Les recherches futures pourraient explorer comment intégrer des stratégies d’apprentissage continu plus avancées pour traiter des flux vidéo plus longs ou des catégories d’objets plus nombreuses. En outre, les chercheurs pourraient explorer comment appliquer CMOSFET à d’autres tâches de vision par ordinateur, comme la détection d’objets et la segmentation sémantique.
Résumé
Le modèle CMOSFET, en introduisant des flux de mouvement à plusieurs niveaux et un apprentissage auto-supervisé par contraste, a réussi à réaliser un apprentissage continu non supervisé à partir d’un seul flux vidéo. Cette recherche offre non seulement de nouvelles perspectives pour l’apprentissage continu dans le domaine de la vision par ordinateur, mais constitue également une référence importante pour la conception des futurs systèmes d’intelligence artificielle.