Moonshot:通过运动感知多模态条件实现可控视频生成和编辑

MoonShot——迈向基于运动感知多模态条件的可控视频生成与编辑 研究背景与问题提出 近年来,文本到视频扩散模型(Video Diffusion Models, VDMs)取得了显著进展,使得生成高质量、视觉吸引人的视频成为可能。然而,现有VDM大多依赖于文本条件进行生成控制,这在精确描述视觉内容方面存在局限性。具体而言,这些方法通常难以对生成视频的外观和几何结构进行精细控制,导致生成结果高度依赖随机性或偶然性。 为了解决这一问题,研究者尝试通过微调扩散模型实现个性化生成(如DreamBooth),但这种方法需要针对每个输入图像重复训练,效率低下且难以扩展到更广泛的应用场景。此外,尽管图像域中的IP-Adapter通过双交叉注意力层实现了图像与文本的联合条件控制,但直接将其应用于视频生成会...

基于级联潜在扩散模型的高质量视频生成框架LaVie

基于级联潜在扩散模型的高质量视频生成框架LaVie

基于级联潜在扩散模型的高质量视频生成:LaVie 学术背景 近年来,随着扩散模型(Diffusion Models, DMs)在图像生成领域的突破性进展,文本到图像(Text-to-Image, T2I)生成技术已经取得了显著的成功。然而,将这一技术扩展到文本到视频(Text-to-Video, T2V)生成领域仍然面临诸多挑战。视频生成不仅需要生成视觉上逼真的图像,还需要确保时间上的连贯性,同时保留预训练T2I模型的创造性生成能力。现有的T2V生成方法通常依赖于从零开始训练整个系统,这不仅需要大量的计算资源,还难以在视频质量、训练成本和模型可组合性之间找到平衡。 为了解决这些问题,本文提出了LaVie,一个基于级联视频潜在扩散模型(Cascaded Video Latent Diffusi...