高质量视频-术语-FmRead学术前沿

基于级联潜在扩散模型的高质量视频生成：LaVie 学术背景近年来，随着扩散模型（Diffusion Models, DMs）在图像生成领域的突破性进展，文本到图像（Text-to-Image, T2I）生成技术已经取得了显著的成功。然而，将这一技术扩展到文本到视频（Text-to-Video, T2V）生成领域仍然面临诸多挑战。视频生成不仅需要生成视觉上逼真的图像，还需要确保时间上的连贯性，同时保留预训练T2I模型的创造性生成能力。现有的T2V生成方法通常依赖于从零开始训练整个系统，这不仅需要大量的计算资源，还难以在视频质量、训练成本和模型可组合性之间找到平衡。为了解决这些问题，本文提出了LaVie，一个基于级联视频潜在扩散模型（Cascaded Video Latent Diffusi...