AutoStory:以最少人力生成多样化故事图像
学术背景与问题提出
故事可视化(Story Visualization)是一项旨在从文本描述的故事中生成一系列视觉上一致的图像的任务。这项任务要求生成的图像不仅要高质量,还要与文本描述保持一致,并且在不同图像中角色的身份和场景也要保持一致。尽管故事可视化在艺术创作、儿童教育和文化传承等领域具有广泛的应用前景,但由于其复杂性,现有的方法往往通过简化问题来处理,例如仅考虑特定的角色和场景,或要求用户提供每张图像的控制条件(如草图)。这些简化使得现有方法在实际应用中表现不佳。
为了解决这些问题,本文提出了一种自动化故事可视化系统,能够以最少的人工交互生成多样化、高质量且一致的故事图像。具体来说,作者利用大语言模型(LLM)的理解和规划能力进行布局规划,然后基于布局利用大规模文本到图像模型生成复杂的故事图像。通过这种方式,作者不仅提高了图像生成的质量,还允许用户通过简单的交互来调整生成结果。
论文来源与作者信息
本文由Wen Wang、Canyu Zhao、Hao Chen、Zhekai Chen、Kecheng Zheng和Chunhua Shen共同撰写,作者分别来自浙江大学和浙江大学CAD&CG国家重点实验室。论文于2024年11月18日被Springer旗下的International Journal of Computer Vision期刊接收并发表。
研究流程与实验设计
1. 布局生成阶段
在布局生成阶段,作者首先利用大语言模型(LLM)将用户输入的文本故事转换为图像布局。具体步骤如下:
- 故事预处理:用户输入的文本可以是完整的故事或简单的描述。如果输入是简单的描述,作者使用LLM生成具体的故事内容。
- 故事分割:将生成的故事分割为多个面板(panel),每个面板对应一张故事图像。
- 布局生成:利用LLM从每个面板的描述中提取场景布局,生成全局提示(global prompt)和局部提示(local prompt),并为每个局部提示生成对应的边界框(bounding box)。
2. 密集条件生成阶段
在密集条件生成阶段,作者提出了一种将稀疏的边界框布局转换为密集控制条件(如草图或关键点)的方法,以提高图像生成的质量。具体步骤如下:
- 单个对象生成:根据局部提示生成单个对象的图像。
- 提取密集条件:使用开放词汇对象检测方法(如Grounding-DINO)定位对象,并使用SAM(Segment Anything Model)获取对象的分割掩码。然后使用PIDINet提取对象的边缘作为草图控制条件,或使用HRNet获取人体姿态关键点。
- 组合密集条件:将单个对象的密集控制条件粘贴到布局中的对应区域,生成整个图像的密集控制条件。
3. 条件图像生成阶段
在条件图像生成阶段,作者基于布局和密集控制条件生成最终的故事图像。具体步骤如下:
- 稀疏布局控制:利用LLM生成的布局控制图像生成过程,确保生成的图像符合布局。
- 密集控制:使用T2I-Adapter将密集控制条件注入到图像生成过程中,进一步提高图像质量。
- 身份一致性保持:通过Mix-of-Show方法,确保生成的角色图像在不同图像中保持一致。
4. 角色数据生成
为了消除用户收集角色数据的负担,作者提出了一种无需训练的一致性建模方法,通过将多视角图像视为视频并联合生成纹理,确保生成的角色图像在身份上保持一致。同时,作者利用3D先验知识生成多样化的角色图像,确保生成的数据既一致又多样化。
主要结果与结论
1. 主要结果
通过实验,作者展示了其方法在生成高质量、与文本对齐且身份一致的故事图像方面的优越性。无论是用户提供角色图像还是仅提供文本输入,该方法都能生成令人满意的结果。实验结果表明,该方法在文本到图像的相似性和图像到图像的相似性方面均优于现有方法。
2. 结论
本文提出的AutoStory系统通过结合大语言模型和大规模文本到图像模型,实现了高质量、多样化且一致的故事图像生成。该方法不仅减少了用户的工作量,还通过自动生成角色数据消除了用户收集数据的负担。实验证明,该方法在生成质量和角色一致性方面均优于现有方法,且无需进行耗时的大规模训练,能够轻松推广到不同的角色、场景和风格。
研究的亮点与创新
- 全自动故事可视化管道:AutoStory能够以最少的人工输入生成多样化、高质量且一致的故事图像。
- 稀疏与密集控制条件的结合:通过稀疏控制信号进行布局生成,密集控制信号进行高质量图像生成,提出了一个简单但有效的密集条件生成模块。
- 多视角一致的角色生成:提出了一种无需用户绘制或收集角色图像的方法,通过3D感知生成模型生成多视角一致的角色图像。
- 灵活的用户交互:用户可以通过简单的交互调整生成结果,如提供角色图像、调整布局或绘制草图。
研究的意义与价值
本文的研究在故事可视化领域具有重要的科学价值和应用价值。通过结合大语言模型和大规模文本到图像模型,AutoStory不仅提高了图像生成的质量和一致性,还大大减少了用户的工作量。该方法在艺术创作、儿童教育和文化传承等领域具有广泛的应用前景,能够为用户提供丰富的视觉表达工具。
其他有价值的信息
本文还展示了AutoStory在不同场景下的适应性,如生成特定外观的角色、侧视图、放大视图、强调环境的图像以及不同情绪的角色图像。此外,作者还探讨了生成多角色故事图像的挑战,并提出了未来的改进方向,如通过生成单个高质量角色图像并将其拼接成故事图像来处理多角色场景。
本文通过创新的方法和技术,为故事可视化领域带来了新的突破,展示了自动化生成高质量故事图像的巨大潜力。