AutoStory : Génération d'images narratives diversifiées avec un effort humain minimal

Contexte académique et problématique

La visualisation d’histoires (Story Visualization) est une tâche visant à générer une série d’images visuellement cohérentes à partir d’une histoire décrite par un texte. Cette tâche exige que les images générées soient de haute qualité, alignées avec la description textuelle, et que les identités des personnages et des scènes restent cohérentes à travers les différentes images. Bien que la visualisation d’histoires ait un large éventail d’applications potentielles dans la création artistique, l’éducation des enfants et la transmission culturelle, en raison de sa complexité, les méthodes existantes simplifient souvent le problème en ne considérant que des personnages et des scènes spécifiques, ou en exigeant que l’utilisateur fournisse des conditions de contrôle par image (comme des croquis). Ces simplifications rendent les méthodes existantes peu performantes dans des applications réelles.

Pour résoudre ces problèmes, cet article propose un système automatisé de visualisation d’histoires, capable de générer des images d’histoires diversifiées, de haute qualité et cohérentes avec un minimum d’interaction humaine. Plus précisément, les auteurs utilisent les capacités de compréhension et de planification des grands modèles de langage (LLM) pour la planification de la mise en page, puis génèrent des images d’histoires complexes basées sur cette mise en page à l’aide de modèles de texte à image à grande échelle. De cette manière, les auteurs améliorent non seulement la qualité de la génération d’images, mais permettent également à l’utilisateur d’ajuster les résultats générés par des interactions simples.

Source de l’article et informations sur les auteurs

Cet article est co-écrit par Wen Wang, Canyu Zhao, Hao Chen, Zhekai Chen, Kecheng Zheng et Chunhua Shen, tous affiliés à l’Université du Zhejiang et au Laboratoire national clé de CAD&CG de l’Université du Zhejiang. L’article a été accepté et publié le 18 novembre 2024 dans la revue International Journal of Computer Vision de Springer.

Processus de recherche et conception expérimentale

1. Phase de génération de la mise en page

Dans la phase de génération de la mise en page, les auteurs utilisent d’abord un grand modèle de langage (LLM) pour convertir l’histoire textuelle saisie par l’utilisateur en une mise en page d’image. Les étapes spécifiques sont les suivantes :

  1. Prétraitement de l’histoire : L’entrée textuelle de l’utilisateur peut être une histoire complète ou une simple description. Si l’entrée est une description simple, les auteurs utilisent le LLM pour générer le contenu spécifique de l’histoire.
  2. Segmentation de l’histoire : L’histoire générée est divisée en plusieurs panneaux (panels), chaque panneau correspondant à une image de l’histoire.
  3. Génération de la mise en page : Le LLM est utilisé pour extraire la mise en page de la scène à partir de la description de chaque panneau, générant un indice global (global prompt) et des indices locaux (local prompts), ainsi que des boîtes englobantes (bounding boxes) pour chaque indice local.

2. Phase de génération de conditions denses

Dans la phase de génération de conditions denses, les auteurs proposent une méthode pour transformer les mises en page de boîtes englobantes éparses en conditions de contrôle denses (comme des croquis ou des points clés) afin d’améliorer la qualité de la génération d’images. Les étapes spécifiques sont les suivantes :

  1. Génération d’objets individuels : Des images d’objets individuels sont générées en fonction des indices locaux.
  2. Extraction des conditions denses : Une méthode de détection d’objets à vocabulaire ouvert (comme Grounding-DINO) est utilisée pour localiser les objets, et SAM (Segment Anything Model) est utilisé pour obtenir les masques de segmentation des objets. Ensuite, PIDINet est utilisé pour extraire les contours des objets comme conditions de contrôle de croquis, ou HRNet est utilisé pour obtenir les points clés de la pose humaine.
  3. Combinaison des conditions denses : Les conditions de contrôle denses des objets individuels sont collées dans les zones correspondantes de la mise en page pour générer les conditions de contrôle denses de l’image entière.

3. Phase de génération d’images conditionnelles

Dans la phase de génération d’images conditionnelles, les auteurs génèrent les images finales de l’histoire en se basant sur la mise en page et les conditions de contrôle denses. Les étapes spécifiques sont les suivantes :

  1. Contrôle de la mise en page éparse : La mise en page générée par le LLM est utilisée pour contrôler le processus de génération d’images, garantissant que les images générées respectent la mise en page.
  2. Contrôle dense : T2I-Adapter est utilisé pour injecter les conditions de contrôle denses dans le processus de génération d’images, améliorant ainsi la qualité des images.
  3. Préservation de l’identité : La méthode Mix-of-Show est utilisée pour garantir que les images des personnages restent cohérentes à travers les différentes images.

4. Génération de données de personnages

Pour éliminer la charge de collecte de données de personnages par l’utilisateur, les auteurs proposent une méthode de modélisation de la cohérence sans entraînement, en traitant les images multi-vues comme une vidéo et en générant conjointement les textures pour garantir la cohérence des identités des personnages générés. Parallèlement, les auteurs utilisent des connaissances préalables en 3D pour générer des images de personnages diversifiées, garantissant que les données générées sont à la fois cohérentes et variées.

Résultats principaux et conclusions

1. Résultats principaux

À travers des expériences, les auteurs démontrent la supériorité de leur méthode dans la génération d’images d’histoires de haute qualité, alignées avec le texte et cohérentes en termes d’identité. Que l’utilisateur fournisse des images de personnages ou seulement du texte, la méthode est capable de produire des résultats satisfaisants. Les résultats expérimentaux montrent que cette méthode surpasse les méthodes existantes en termes de similarité texte-image et de similarité image-image.

2. Conclusions

Le système AutoStory proposé dans cet article, en combinant les grands modèles de langage et les modèles de texte à image à grande échelle, réalise la génération d’images d’histoires de haute qualité, diversifiées et cohérentes. Cette méthode réduit non seulement la charge de travail de l’utilisateur, mais élimine également le fardeau de la collecte de données de personnages grâce à la génération automatique de données de personnages. Les expériences prouvent que cette méthode surpasse les méthodes existantes en termes de qualité de génération et de cohérence des personnages, et peut être facilement étendue à différents personnages, scènes et styles sans nécessiter un entraînement long et coûteux.

Points forts et innovations de la recherche

  1. Pipeline de visualisation d’histoires entièrement automatisé : AutoStory est capable de générer des images d’histoires diversifiées, de haute qualité et cohérentes avec un minimum d’entrée humaine.
  2. Combinaison de contrôles épars et denses : En utilisant des signaux de contrôle épars pour la génération de la mise en page et des signaux de contrôle denses pour la génération d’images de haute qualité, un module de génération de conditions denses simple mais efficace est proposé.
  3. Génération de personnages cohérents en multi-vues : Une méthode est proposée pour générer des images de personnages cohérentes en multi-vues sans nécessiter que l’utilisateur dessine ou collecte des images de personnages.
  4. Interaction utilisateur flexible : L’utilisateur peut ajuster les résultats générés par des interactions simples, comme fournir des images de personnages, ajuster la mise en page ou dessiner des croquis.

Importance et valeur de la recherche

Cette recherche a une importante valeur scientifique et applicative dans le domaine de la visualisation d’histoires. En combinant les grands modèles de langage et les modèles de texte à image à grande échelle, AutoStory améliore non seulement la qualité et la cohérence de la génération d’images, mais réduit également considérablement la charge de travail de l’utilisateur. Cette méthode a un large éventail d’applications potentielles dans la création artistique, l’éducation des enfants et la transmission culturelle, offrant aux utilisateurs des outils riches d’expression visuelle.

Autres informations utiles

L’article montre également l’adaptabilité d’AutoStory à différents scénarios, tels que la génération de personnages avec des apparences spécifiques, des vues latérales, des vues agrandies, des images mettant l’accent sur l’environnement et des personnages avec différentes émotions. De plus, les auteurs explorent les défis de la génération d’images d’histoires avec plusieurs personnages et proposent des directions futures pour l’amélioration, comme la génération d’images de personnages individuels de haute qualité qui sont ensuite assemblées en images d’histoires pour gérer des scènes à plusieurs personnages.

Grâce à des méthodes et des technologies innovantes, cet article apporte une nouvelle percée dans le domaine de la visualisation d’histoires, démontrant le potentiel énorme de la génération automatisée d’images d’histoires de haute qualité.