Moonshot : Vers une génération et une édition de vidéos contrôlables avec des conditions multimodales sensibles au mouvement

MoonShot - Vers une génération et une édition vidéo contrôlables basées sur des conditions multimodales sensibles au mouvement

Contexte de recherche et problématique

Ces dernières années, les modèles de diffusion texte-vidéo (Video Diffusion Models, VDMs) ont connu des progrès significatifs, permettant de générer des vidéos de haute qualité et visuellement attrayantes. Cependant, la plupart des VDM actuels reposent principalement sur des conditions textuelles pour le contrôle de la génération, ce qui présente des limites pour décrire précisément le contenu visuel. En particulier, ces méthodes peinent souvent à contrôler finement l’apparence et la structure géométrique des vidéos générées, rendant les résultats fortement dépendants du hasard ou de la randomisation.

Pour résoudre ce problème, les chercheurs ont tenté de réaliser une génération personnalisée en ajustant les modèles de diffusion (comme DreamBooth), mais cette approche nécessite un entraînement répétitif pour chaque image d’entrée, ce qui est inefficace et difficile à étendre à des applications plus larges. De plus, bien que l’IP-Adapter dans le domaine des images permette un contrôle conjoint d’images et de texte via des couches d’attention croisée doubles, son application directe à la génération vidéo entraîne une répétition des mêmes conditions textuelles pour chaque trame, rendant difficile la capture des informations de mouvement dans les invites.

Dans ce contexte, les auteurs proposent le modèle MoonShot, visant à résoudre ces problèmes grâce à l’introduction de conditions multimodales sensibles au mouvement. Ce modèle non seulement prend en charge le contrôle conjoint d’images et de texte, mais intègre également de nouveaux modules pour améliorer la modélisation du mouvement, tout en exploitant des ControlNets d’images pré-entraînés pour le contrôle géométrique sans entraînement vidéo supplémentaire.

Origine de l’article

Cet article a été co-rédigé par David Junhao Zhang, Dongxu Li, Hung Le, Mike Zheng Shou, Caiming Xiong et Doyen Sahoo, respectivement affiliés au SHOW Lab de l’Université nationale de Singapour et à Salesforce Research en Californie. Il a été accepté le 6 janvier 2025 et publié dans International Journal of Computer Vision, avec le DOI 10.1007/s11263-025-02346-1.


Détails de la recherche

a) Processus de recherche

1. Conception de l’architecture du modèle

Le composant central de MoonShot est le bloc vidéo multimodal (Multimodal Video Block, MVB). Le MVB inclut les conceptions clés suivantes : - Couche d’attention croisée double sensible au mouvement : Un module sensible au mouvement attribue des poids temporels apprenables à chaque trame, évitant ainsi la répétition des mêmes conditions textuelles. Plus précisément, ce module concatène d’abord l’intégration textuelle moyennée et les caractéristiques latentes moyennées, puis les traite via une série de couches de convolution temporelle (activées par ReLU et Sigmoid), générant finalement des poids sensibles au mouvement. - Couche d’attention spatiotemporelle : Contrairement aux couches d’attention temporelle traditionnelles qui ne se concentrent que sur les mêmes positions spatiales, la couche d’attention spatiotemporelle permet à chaque patch d’interagir avec tous les autres patches, capturant ainsi mieux les changements globaux. - Intégration de ControlNet d’images : En ajoutant des modules temporels après tous les modules spatiaux, la fonctionnalité de ControlNet d’images est préservée.

2. Jeux de données et processus d’entraînement

L’étude utilise plusieurs jeux de données publics pour l’entraînement et l’évaluation : - LAION-5B : Utilisé pour initialiser les poids spatiaux. - WebVid10m : Contient 10 millions de vidéos, chacune échantillonnée à 24 trames avec une résolution de 512×320, utilisé pour l’entraînement principal. - InternVideo : Comprend 1000 vidéos de haute qualité pour éliminer les filigranes et optimiser davantage les performances du modèle.

Pendant l’entraînement, les poids spatiaux sont maintenus fixes, tandis que seuls les modules temporels et sensibles au mouvement sont entraînés. L’équipe de recherche a utilisé 16 GPU A100 40G pour l’entraînement.

3. Paramètres expérimentaux

Les expériences sont divisées en plusieurs tâches, notamment la génération vidéo personnalisée, l’animation d’images, l’édition vidéo et la génération texte-vidéo. Chaque tâche est évaluée par une combinaison d’analyses quantitatives et qualitatives. Par exemple, pour la génération vidéo personnalisée, l’étude utilise le jeu de données DreamBooth (contenant 30 sujets, chacun avec 4 à 7 invites textuelles) ; pour l’animation d’images, le jeu de données I2V-Bench (comprenant 2950 vidéos YouTube haute résolution) est utilisé.


b) Principaux résultats de la recherche

1. Efficacité du module sensible au mouvement

Le tableau 6 montre l’impact des modules sensibles au mouvement et des couches d’attention spatiotemporelles sur la qualité vidéo et les performances de mouvement. Les résultats montrent que : - L’introduction du module sensible au mouvement réduit le FVD (Fréchet Video Distance) de 517 à 498 par rapport à la ligne de base, avec une nette amélioration du réalisme du mouvement (71 % vs 29 %). - Avec l’ajout des couches d’attention spatiotemporelles, le degré de dynamisme augmente encore (91,2 % vs 60,3 %), tout en maintenant une cohérence temporelle élevée (98,84 % vs 98,90 %).

2. Avantages des conditions multimodales

Le tableau 7 compare les résultats obtenus avec uniquement des conditions textuelles et ceux avec des conditions conjointes d’images et de texte. Les résultats montrent que : - Les conditions conjointes améliorent significativement la cohérence temporelle et l’identité du sujet (94,3 % vs 84,5 %). - La qualité de l’image s’améliore également (63,46 % vs 60,48 %), tandis que le degré de dynamisme reste inchangé (91,2 % vs 91,4 %).

3. Capacités d’édition vidéo

Le tableau 3 présente les performances de MoonShot dans les tâches d’édition vidéo. Comparé à des méthodes comme FateZero et Pix2Video, MoonShot excelle en termes de cohérence temporelle (98,6 % vs 96,5 %) et de préférences des utilisateurs (72,4 % vs 18,2 %).

4. Génération texte-vidéo

Les résultats sur le jeu de données MSR-VTT (tableau 5) montrent que MoonShot surpasse les méthodes existantes en termes de FID-VID, FVD et CLIP-T, prouvant que les vidéos générées présentent une qualité visuelle et une cohérence sémantique supérieures.


c) Conclusion et signification de la recherche

Le modèle MoonShot améliore considérablement la qualité et la contrôlabilité de la génération vidéo grâce à l’introduction de conditions multimodales sensibles au mouvement et de couches d’attention spatiotemporelles. Ses principales contributions incluent : 1. L’introduction d’une couche d’attention croisée double sensible au mouvement, permettant aux vidéos de suivre précisément les descriptions de mouvement dans les invites. 2. L’utilisation de conditions d’image pendant l’entraînement vidéo, fournissant des signaux visuels suffisants pour que les modules temporels se concentrent sur la cohérence temporelle et la modélisation du mouvement. 3. Le remplacement des couches d’attention temporelle traditionnelles par des couches d’attention spatiotemporelles, renforçant la représentation des grands mouvements dynamiques.

Cette recherche fournit non seulement un outil de base pour la génération vidéo contrôlable, mais montre également un potentiel d’application dans divers domaines, notamment la génération vidéo personnalisée, l’animation d’images et l’édition vidéo.


d) Points forts de la recherche

  1. Approche innovante : Première introduction de modules sensibles au mouvement et de couches d’attention spatiotemporelles, résolvant les lacunes des méthodes traditionnelles en matière de modélisation du mouvement et de cohérence temporelle.
  2. Efficacité : En fixant les poids spatiaux, il permet de réutiliser directement des ControlNets d’images pré-entraînés sans entraînement vidéo supplémentaire.
  3. Polyvalence : Applicable à diverses tâches de génération, y compris la génération vidéo personnalisée, l’animation d’images et l’édition vidéo.

e) Autres informations utiles

L’équipe de recherche a également mis en open source le code et les poids du modèle, facilitant une exploration et une application ultérieure par la communauté académique et industrielle. De plus, les performances exceptionnelles de MoonShot en termes de dynamisme et de cohérence temporelle offrent une référence importante pour les recherches futures en génération vidéo.


Valeur et signification de la recherche

La proposition du modèle MoonShot marque une avancée majeure dans le domaine de la génération vidéo contrôlable. Son concept de conception innovant et sa méthode d’implémentation efficace non seulement propulsent le développement technologique de la génération vidéo, mais fournissent également un soutien technique puissant pour des applications pratiques telles que la production cinématographique, la réalité virtuelle et la conception publicitaire. En combinant des conditions d’images et de texte, MoonShot réalise un contrôle précis de l’apparence et de la structure géométrique des vidéos, posant ainsi une base solide pour les recherches futures en génération multimodale.