LaVie : Génération de vidéos de haute qualité avec des modèles de diffusion latente en cascade
Génération de vidéos de haute qualité avec des modèles de diffusion latente en cascade : LaVie
Contexte académique
Ces dernières années, les modèles de diffusion (Diffusion Models, DMs) ont réalisé des avancées révolutionnaires dans le domaine de la génération d’images, en particulier pour la génération d’images à partir de texte (Text-to-Image, T2I). Cependant, l’extension de cette technologie à la génération de vidéos à partir de texte (Text-to-Video, T2V) reste confrontée à de nombreux défis. La génération de vidéos nécessite non seulement de produire des images visuellement réalistes, mais aussi d’assurer une cohérence temporelle tout en préservant la capacité créative des modèles T2I pré-entraînés. Les méthodes existantes de génération T2V reposent généralement sur l’entraînement de systèmes entiers à partir de zéro, ce qui exige des ressources de calcul considérables et rend difficile l’équilibre entre la qualité des vidéos, le coût de l’entraînement et la compositionnalité des modèles.
Pour résoudre ces problèmes, cet article propose LaVie, un cadre de génération de vidéos intégré basé sur des modèles de diffusion latente en cascade (Cascaded Video Latent Diffusion Models). LaVie introduit un mécanisme d’auto-attention temporelle simple et un encodage positionnel rotatif (Rotary Positional Encoding, RoPE), capturant efficacement les corrélations temporelles dans les données vidéo. De plus, cet article propose un ensemble de données diversifié, Vimeo25M, contenant 25 millions de paires texte-vidéo de haute qualité, afin d’améliorer les performances du modèle.
Source de l’article
Cet article est le fruit d’une collaboration entre des chercheurs du Shanghai Artificial Intelligence Laboratory, de la Nanyang Technological University, de The Chinese University of Hong Kong et de Monash University. Les auteurs principaux incluent Yaohui Wang, Xinyuan Chen, Xin Ma, entre autres. L’article a été publié le 28 octobre 2024 dans la revue International Journal of Computer Vision.
Processus de recherche et conception expérimentale
1. Processus de recherche
Le cadre LaVie est composé de trois modules principaux : le modèle de base T2V, le modèle d’interpolation temporelle et le modèle de super-résolution vidéo. Chaque module est entraîné avec des entrées textuelles comme conditions, générant finalement des vidéos haute résolution et temporellement cohérentes.
a) Modèle de base T2V
Le modèle de base T2V est responsable de la génération d’images clés en basse résolution. Ce modèle est basé sur le modèle Stable Diffusion pré-entraîné, étendant l’architecture 2D UNet originale en introduisant des couches de convolution temporelle et des modules de transformateur spatio-temporels. Concrètement, le modèle étend les noyaux de convolution 2D en noyaux pseudo-3D et ajoute des couches d’attention temporelle après chaque couche d’attention spatiale. De cette manière, le modèle peut capturer les corrélations spatio-temporelles dans les vidéos.
Pour améliorer davantage les résultats, cet article adopte une stratégie de réglage fin conjoint image-vidéo. Concrètement, le modèle traite à la fois des images et des vidéos pendant l’entraînement, en optimisant conjointement les fonctions de perte pour les images et les vidéos, évitant ainsi le problème d’“oubli catastrophique” qui survient lors de l’utilisation exclusive de données vidéo. Les expériences montrent que cette stratégie de réglage fin conjoint améliore significativement la qualité et la diversité des vidéos générées.
b) Modèle d’interpolation temporelle
Le modèle d’interpolation temporelle vise à augmenter le taux de trame des vidéos générées et à ajouter des détails temporels. Ce modèle est basé sur une architecture UNet de diffusion, prenant en entrée une vidéo de base de 16 trames et produisant en sortie une vidéo de 61 trames à taux de trame élevé. Pendant l’entraînement, le modèle apprend le processus de débruiteur en concaténant les trames de la vidéo de base avec des trames bruitées, générant ainsi des trames interpolées. Contrairement aux méthodes traditionnelles d’interpolation vidéo, chaque trame générée par le modèle d’interpolation de LaVie est entièrement nouvelle, plutôt qu’une simple interpolation des trames d’entrée.
c) Modèle de super-résolution vidéo
Le modèle de super-résolution vidéo est utilisé pour améliorer la résolution spatiale des vidéos générées. Ce modèle est basé sur un suréchantillonneur d’images par diffusion pré-entraîné, étendant l’architecture 2D originale en introduisant des couches de convolution et d’attention temporelles. Pendant l’entraînement, le modèle utilise des vidéos en basse résolution comme entrées conditionnelles fortes, générant des trames vidéo en haute résolution. Finalement, LaVie est capable de générer des vidéos haute définition de 1280×2048 pixels.
2. Résultats expérimentaux
a) Évaluation qualitative
LaVie excelle dans la génération de contenus vidéo diversifiés. Les résultats expérimentaux montrent que le modèle peut générer des vidéos incluant des animaux, des personnages de films et des scènes complexes, tout en maintenant une cohérence temporelle et spatiale élevée. Par rapport aux méthodes existantes de génération T2V, LaVie présente des avantages significatifs en termes de qualité visuelle et de créativité.
b) Évaluation quantitative
Dans les évaluations zero-shot sur les ensembles de données UCF101 et MSR-VTT, LaVie surpasse les méthodes existantes de génération T2V en termes de FVD (Fréchet Video Distance) et de similarité CLIP (CLIP Similarity). En particulier, sur l’ensemble de données UCF101, le score FVD de LaVie est significativement inférieur à celui des autres méthodes, démontrant sa supériorité en termes de qualité de génération vidéo.
c) Évaluation humaine
Grâce à une évaluation humaine à grande échelle, LaVie obtient des scores élevés en termes de qualité vidéo, de fluidité des mouvements et de cohérence thématique. Par rapport aux méthodes existantes de génération T2V, LaVie se distingue dans plusieurs dimensions d’évaluation, en particulier dans la génération de visages et de mains de haute qualité.
3. Conclusion
Le cadre LaVie proposé dans cet article, basé sur des modèles de diffusion latente en cascade, réalise avec succès la génération de vidéos de haute qualité et temporellement cohérentes. En introduisant un mécanisme d’auto-attention temporelle simple et une stratégie de réglage fin conjoint image-vidéo, LaVie a fait des progrès significatifs en termes de qualité et de diversité des vidéos générées. De plus, l’ensemble de données Vimeo25M proposé fournit des données d’entraînement de haute qualité pour les tâches de génération T2V, améliorant encore les performances du modèle.
LaVie excelle non seulement dans les tâches de génération T2V zero-shot, mais démontre également sa flexibilité et son efficacité dans des tâches en aval telles que la génération de vidéos longues et la génération de vidéos personnalisées. À l’avenir, LaVie pourrait jouer un rôle important dans des domaines tels que la production cinématographique, les jeux vidéo et la création artistique.
Points forts de la recherche
- Génération de vidéos de haute qualité : LaVie génère des vidéos haute résolution, visuellement réalistes et temporellement cohérentes grâce à des modèles de diffusion en cascade.
- Réglage fin conjoint image-vidéo : En optimisant conjointement les fonctions de perte pour les images et les vidéos, LaVie évite l’oubli catastrophique et améliore significativement les résultats.
- Ensemble de données Vimeo25M : Cet ensemble de données de haute qualité fournit des ressources précieuses pour les recherches futures en génération T2V.
- Applications étendues : LaVie excelle non seulement dans la génération T2V, mais montre également son potentiel dans des tâches telles que la génération de vidéos longues et personnalisées.
Signification de la recherche
La recherche sur LaVie offre de nouvelles perspectives et méthodes pour le domaine de la génération T2V. En introduisant un mécanisme d’auto-attention temporelle simple et une stratégie de réglage fin conjoint image-vidéo, LaVie a réalisé des progrès significatifs en termes de qualité et de diversité des vidéos générées. De plus, l’ensemble de données Vimeo25M proposé fournit des ressources précieuses pour les recherches futures en génération T2V. Le succès de LaVie non seulement fait progresser la technologie de génération vidéo, mais ouvre également de nouvelles possibilités pour des domaines tels que la production cinématographique, les jeux vidéo et la création artistique.