Un réseau basé sur RAFT et un ensemble de données synthétiques pour la stabilisation vidéo numérique

La traduction française complète sera trop longue pour une seule réponse. Je vais la diviser en plusieurs parties. Voici la première section traduite en respectant la mise en forme Markdown et en ne modifiant que le texte.


Étude sur l’amélioration de la stabilisation vidéo basée sur l’apprentissage profond et le jeu de données synthétique SynthStab

Introduction générale

La stabilisation vidéo numérique vise à supprimer les vibrations indésirables et les traces de mouvement de la caméra par le biais de logiciels, jouant un rôle clé dans le traitement vidéo moderne, notamment dans les vidéos amateurs. Cependant, les méthodes existantes basées sur l’apprentissage profond, connues sous le nom de stabilisation par déformation directe (Direct Warping Stabilization, ou DWS), bien qu’efficaces pour les vidéos de faible qualité, présentent des limites face aux instabilités intenses et peinent à atteindre le niveau de stabilité des méthodes traditionnelles. Cela est principalement dû à plusieurs facteurs : une définition imprécise des vidéos stables dans les jeux de données existants, des architectures de modèles simplistes, et une exploitation insuffisante des informations de prédiction des images futures.

Pour pallier ces lacunes, cet article propose une nouvelle méthode semi-en ligne de déformation directe, basée sur RAFT (Recurrent All-Pairs Field Transforms) et nommée NAFT, ainsi qu’un nouveau jeu de données synthétique appelé SynthStab. Ces améliorations permettent non seulement d’améliorer les performances des méthodes DWS sur les vidéos présentant des instabilités intenses, mais aussi de réduire significativement la taille des modèles et le nombre de paramètres, rapprochant ainsi leur qualité des méthodes les plus avancées.

Origine et auteurs de l’article

L’article, intitulé « NAFT et SynthStab : un réseau basé sur RAFT et un jeu de données synthétique pour la stabilisation vidéo numérique », a été rédigé par Marcos Roberto e Souza, Helena de Almeida Maia et Helio Pedrini, affiliés à l’Institut de l’informatique de l’Université de Campinas, au Brésil. L’article a été publié en 2024 dans le International Journal of Computer Vision.

Processus de recherche

Construction du jeu de données synthétique SynthStab

Le jeu de données SynthStab se compose de deux parties : des vidéos courtes avec une instabilité faible (SynthStab-SL) et des vidéos longues avec une instabilité élevée (SynthStab-LH). La génération de ces données suit les étapes ci-dessous :

  1. Génération de trajectoires stables : Des trajectoires à six degrés de liberté représentant le mouvement de la caméra sont définies en s’appuyant sur un modèle cinématique, avec des segments à vitesse constante, accélération constante, etc. Chaque segment est déterminé par une position initiale, une vitesse et une taille, générées de manière aléatoire.

  2. Génération de trajectoires instables : À partir des trajectoires stables, des points clés aléatoires et un filtre gaussien sont introduits pour accroître l’instabilité, tout en respectant les variations de profondeur de la scène afin de préserver l’objectif original du mouvement.

  3. Rendu des vidéos : Les environnements virtuels d’Unreal Engine et d’AirSim sont utilisés pour rendre des vidéos synchronisées (stables et instables), comprenant des cadres RGB, des cartes de profondeur et des données sur les positions 3D des caméras.

  4. Calcul des champs de mouvement : Des champs de mouvement sont calculés entre les cadres stables et instables en utilisant les cartes de profondeur et les matrices de mouvement de la caméra, servant à superviser l’entraînement du modèle.

Conception du nouveau modèle NAFT

Le modèle NAFT s’appuie sur l’architecture RAFT et inclut les modules clés suivants : - Mécanisme de mise à jour conscient du voisinage (IUNO) : En combinant les informations des voisins, un décodeur itératif actualise les prédictions de flux optique pour chaque cadre avec une précision accrue. - Décodeurs multitâches : La prédiction initiale (tâche d’approximation) et l’ajustement basé sur les voisins (tâche d’adéquation) sont traités séparément pour garantir la stabilité de la vidéo et la continuité entre les cadres. - Apprentissage implicite de la stabilité : En utilisant les champs de mouvement comme supervision au lieu des textures des images, NAFT évite les hypothèses explicites sur la stabilité et minimise les biais des modèles.

Lors de l’inférence, NAFT utilise une approche glissante semi-en ligne, intégrant les informations des cadres d’ancrage et d’anticipation. De plus, des techniques de restauration vidéo permettent une stabilisation complète des cadres, évitant la perte de zones valides due au recadrage.

**