Aniclipart : Animation de Clipart avec des A Priori Texte-Vidéo

Contexte académique et problématique

Le Clipart (image clipart) est une forme d’art graphique prédéfinie largement utilisée dans les documents, les présentations et les sites web pour améliorer rapidement l’attrait visuel. Cependant, les workflows traditionnels pour convertir des images clipart statiques en séquences animées sont laborieux et chronophages, impliquant des étapes complexes telles que le rigging (squelettage), l’animation par keyframes (images clés) et la génération d’inbetweens (images intermédiaires). Les récents progrès dans la génération de vidéos à partir de texte (text-to-video generation) offrent de nouvelles possibilités pour résoudre ce problème. Cependant, l’application directe des modèles existants de génération de vidéos à partir de texte peine souvent à préserver les caractéristiques visuelles des cliparts ou à générer des mouvements de style cartoon, ce qui entraîne des résultats d’animation insatisfaisants.

Cet article propose un système nommé AniClipart, qui vise à transformer des cliparts statiques en séquences de mouvement de haute qualité en utilisant des connaissances préalables issues de la génération de vidéos à partir de texte. Le système définit des courbes de Bézier pour les points clés comme trajectoires de mouvement, combinées à une fonction de perte de Video Score Distillation Sampling (VSDS), pour extraire des connaissances sur le mouvement naturel à partir d’un modèle de diffusion pré-entraîné, générant ainsi des animations fluides de style cartoon. De plus, AniClipart intègre un algorithme de déformation de forme As-Rigid-As-Possible (ARAP) différentiable, garantissant la rigidité de la forme du clipart pendant l’animation.

Origine de l’article et informations sur les auteurs

Cet article a été co-écrit par Ronghuan Wu, Wanchao Su, Kede Ma et Jing Liao, respectivement affiliés à la City University of Hong Kong et à Monash University. L’article a été accepté le 18 novembre 2024 par la revue International Journal of Computer Vision et soumis le 31 mars 2024.

Processus de recherche et méthodologie

1. Prétraitement des cliparts

Avant de générer l’animation, les cliparts doivent être prétraités. Cette étape est similaire au rigging dans la production d’animation traditionnelle et comprend les étapes suivantes :

  • Détection des points clés : L’algorithme UniPose est utilisé pour détecter les points clés dans le clipart et construire une structure squelettique pour chaque point clé. UniPose est un framework de détection de points clés basé sur des prompts, capable d’identifier des points clés pour une large gamme d’objets, y compris des objets articulés (comme les humains), des objets rigides et des objets mous.

  • Génération du squelette : Pour des catégories plus larges (comme les animaux marins et les plantes), une méthode en trois étapes est utilisée pour générer le squelette : d’abord, le clipart coloré est converti en image binaire, et les points de contour sont détectés ; ensuite, un squelette droit est généré en propageant les bords vers l’intérieur ; enfin, le squelette est élagué et simplifié pour supprimer les détails inutiles.

  • Construction du maillage triangulaire : Un algorithme de triangulation est utilisé pour construire un maillage triangulaire pour le clipart, permettant des opérations de déformation de forme ultérieures.

2. Animation pilotée par les courbes de Bézier

Pour générer des animations fluides, AniClipart définit une courbe de Bézier pour chaque point clé comme trajectoire de mouvement. Les étapes spécifiques sont les suivantes :

  • Initialisation des courbes de Bézier : Une courbe de Bézier cubique est définie pour chaque point clé, avec le point de départ de la courbe aligné sur la position initiale du point clé, et les trois autres points de contrôle initialisés aléatoirement, garantissant une amplitude de mouvement initiale modérée.

  • Génération des keyframes : À chaque pas de temps (timestep) de l’animation, des points sont échantillonnés le long des courbes de Bézier pour déterminer les nouvelles positions des points clés. Ensuite, l’algorithme ARAP ajuste la forme globale du clipart en fonction de ces nouvelles positions, générant ainsi de nouvelles images.

  • Génération de la vidéo : Un rendu différentiable convertit le clipart déformé en images pixellisées, qui sont ensuite empilées dans l’ordre temporel pour produire la vidéo d’animation finale.

3. Fonctions de perte

Pour garantir que l’animation générée est alignée avec le prompt texte et préserve les caractéristiques visuelles du clipart, AniClipart introduit deux fonctions de perte :

  • Perte de Video Score Distillation Sampling (VSDS) : En entrant la vidéo générée dans un modèle de diffusion texte-à-vidéo pré-entraîné, la différence entre le bruit prédit par le modèle et le bruit réel est calculée, optimisant ainsi les paramètres des courbes de Bézier pour aligner l’animation avec la description textuelle.

  • Perte de squelette (Skeleton Loss) : Pour maintenir l’intégrité de la forme du clipart, la variation de la longueur du squelette est calculée, garantissant que les changements de longueur sont minimisés pendant l’animation.

La fonction de perte finale est une moyenne pondérée de la perte VSDS et de la perte de squelette, optimisée à l’aide de l’optimiseur Adam.

Résultats expérimentaux et conclusions

1. Résultats expérimentaux

AniClipart a démontré des performances exceptionnelles dans plusieurs expériences, générant des animations alignées avec les prompts texte, tout en préservant les caractéristiques visuelles et en maintenant une cohérence de mouvement. Comparé aux modèles existants de génération d’images à vidéo, AniClipart surpasse ces derniers en termes d’alignement texte-vidéo, de préservation des caractéristiques visuelles et de cohérence de mouvement. De plus, AniClipart a montré sa flexibilité dans la gestion de formats d’animation complexes, tels que l’animation en couches (layered animation).

2. Conclusions

AniClipart atteint son objectif de générer des animations de cliparts de haute qualité à partir de descriptions textuelles en définissant des courbes de Bézier pour les points clés comme trajectoires de mouvement, combinées à la perte VSDS et à la perte de squelette. Le système extrait des connaissances préalables sur le mouvement à partir de modèles de diffusion texte-à-vidéo pré-entraînés, sans nécessiter de jeux de données supplémentaires, et maintient la rigidité de la forme du clipart grâce à l’algorithme ARAP. Les résultats expérimentaux montrent qu’AniClipart surpasse les méthodes existantes en termes de qualité et de flexibilité dans la génération d’animations.

3. Points forts de la recherche

  • Génération automatique d’animations : AniClipart permet de générer automatiquement des animations de cliparts à partir de descriptions textuelles, réduisant considérablement la charge de travail traditionnelle de production d’animation.

  • Optimisation des trajectoires de mouvement : Grâce aux courbes de Bézier et à la perte VSDS, AniClipart génère des mouvements sémantiquement significatifs tout en conservant le style cartoon des cliparts.

  • Préservation de la forme : En combinant l’algorithme ARAP et la perte de squelette, AniClipart préserve efficacement les caractéristiques visuelles des cliparts pendant l’animation.

Travaux futurs et limitations

Bien qu’AniClipart excelle dans la génération d’animations, il présente certaines limitations. Par exemple, le système peine à gérer des scènes complexes et des cliparts contenant plusieurs objets. Les travaux futurs incluent l’automatisation accrue de la détection des points clés et du processus d’animation en couches, ainsi que l’exploration de méthodes pour mieux gérer les animations d’objets multiples dans des scènes complexes.

Conclusion

AniClipart offre une solution efficace et flexible pour la génération d’animations de cliparts, permettant de produire automatiquement des séquences animées de haute qualité à partir de descriptions textuelles. En combinant les courbes de Bézier, la perte VSDS et l’algorithme ARAP, le système résout les problèmes de laboriosité des workflows traditionnels d’animation et ouvre de nouvelles perspectives pour la recherche en génération automatique d’animations.