基于级联潜在扩散模型的高质量视频生成框架LaVie
基于级联潜在扩散模型的高质量视频生成:LaVie 学术背景 近年来,随着扩散模型(Diffusion Models, DMs)在图像生成领域的突破性进展,文本到图像(Text-to-Image, T2I)生成技术已经取得了显著的成功。然而,将这一技术扩展到文本到视频(Text-to-Video, T2V)生成领域仍然面临诸多挑战。视频生成不仅需要生成视觉上逼真的图像,还需要确保时间上的连贯性,同时保留预训练T2I模型的创造性生成能力。现有的T2V生成方法通常依赖于从零开始训练整个系统,这不仅需要大量的计算资源,还难以在视频质量、训练成本和模型可组合性之间找到平衡。 为了解决这些问题,本文提出了LaVie,一个基于级联视频潜在扩散模型(Cascaded Video Latent Diffusi...