基于级联潜在扩散模型的高质量视频生成框架LaVie

LaVie高质量视频生成框架

基于级联潜在扩散模型的高质量视频生成:LaVie

学术背景

近年来,随着扩散模型(Diffusion Models, DMs)在图像生成领域的突破性进展,文本到图像(Text-to-Image, T2I)生成技术已经取得了显著的成功。然而,将这一技术扩展到文本到视频(Text-to-Video, T2V)生成领域仍然面临诸多挑战。视频生成不仅需要生成视觉上逼真的图像,还需要确保时间上的连贯性,同时保留预训练T2I模型的创造性生成能力。现有的T2V生成方法通常依赖于从零开始训练整个系统,这不仅需要大量的计算资源,还难以在视频质量、训练成本和模型可组合性之间找到平衡。

为了解决这些问题,本文提出了LaVie,一个基于级联视频潜在扩散模型(Cascaded Video Latent Diffusion Models)的集成视频生成框架。LaVie通过引入简单的时间自注意力机制和旋转位置编码(Rotary Positional Encoding, RoPE),有效地捕捉了视频数据中的时间相关性。此外,本文还提出了一个包含2500万高质量文本-视频对的多样化数据集Vimeo25M,以进一步提升模型的生成效果。

论文来源

本文由来自Shanghai Artificial Intelligence LaboratoryNanyang Technological UniversityThe Chinese University of Hong KongMonash University的研究团队共同完成。主要作者包括Yaohui Wang、Xinyuan Chen、Xin Ma等。论文于2024年10月28日发表在International Journal of Computer Vision期刊上。

研究流程与实验设计

1. 研究流程

LaVie框架由三个主要模块组成:基础T2V模型时间插值模型视频超分辨率模型。每个模块都通过文本输入进行条件化训练,最终生成高分辨率、时间连贯的视频。

a) 基础T2V模型

基础T2V模型负责生成低分辨率的视频关键帧。该模型基于预训练的Stable Diffusion模型,通过引入时间维度的卷积层和时空Transformer模块,扩展了原有的2D UNet架构。具体来说,模型将2D卷积核扩展为伪3D卷积核,并在每个空间注意力层后添加时间注意力层。通过这种方式,模型能够捕捉视频中的时空相关性。

为了进一步提升生成效果,本文采用了联合图像-视频微调策略。具体来说,模型在训练过程中同时处理图像和视频数据,通过联合优化图像和视频的损失函数,避免了仅使用视频数据进行微调时出现的“灾难性遗忘”问题。实验表明,这种联合微调策略显著提升了视频生成的质量和多样性。

b) 时间插值模型

时间插值模型的目标是提升生成视频的帧率,并增加时间细节。该模型基于扩散UNet架构,输入为16帧的基础视频,输出为61帧的高帧率视频。在训练过程中,模型通过将基础视频帧与噪声帧进行拼接,学习去噪过程,从而生成插值帧。与传统的视频插值方法不同,LaVie的插值模型生成的每一帧都是全新的,而不是对输入帧的简单插值。

c) 视频超分辨率模型

视频超分辨率模型用于提升生成视频的空间分辨率。该模型基于预训练的扩散图像上采样器,通过引入时间维度的卷积层和注意力层,扩展了原有的2D架构。模型在训练过程中使用低分辨率视频作为强条件输入,生成高分辨率的视频帧。最终,LaVie能够生成1280×2048分辨率的高清视频。

2. 实验结果

a) 定性评估

LaVie在生成多样化的视频内容方面表现出色。实验结果表明,模型能够生成包含动物、电影角色和复杂场景的视频,并且在时间和空间上保持了高度的一致性。与现有的T2V生成方法相比,LaVie在视觉质量和创造性方面均表现出显著优势。

b) 定量评估

在UCF101和MSR-VTT数据集上的零样本评估中,LaVie在FVD(Fréchet Video Distance)和CLIP相似度(CLIP Similarity)指标上均优于现有的T2V生成方法。特别是在UCF101数据集上,LaVie的FVD得分显著低于其他方法,表明其在生成视频质量上的优越性。

c) 人类评估

通过大规模的人类评估,LaVie在视频质量、运动平滑度、主题一致性等方面均获得了较高的评分。与现有的T2V生成方法相比,LaVie在多个评估维度上表现出色,尤其是在生成高质量人脸和手部细节方面。

3. 结论

本文提出的LaVie框架通过级联视频潜在扩散模型,成功实现了高质量、时间连贯的视频生成。通过引入简单的时间自注意力机制和联合图像-视频微调策略,LaVie在生成视频的质量和多样性方面均取得了显著进展。此外,本文提出的Vimeo25M数据集为T2V生成任务提供了高质量的训练数据,进一步提升了模型的性能。

LaVie不仅在零样本T2V生成任务中表现出色,还在长视频生成和个性化视频生成等下游任务中展示了其灵活性和有效性。未来,LaVie有望在电影制作、视频游戏和艺术创作等领域发挥重要作用。

研究亮点

  1. 高质量视频生成:LaVie通过级联扩散模型,生成了视觉上逼真、时间上连贯的高分辨率视频。
  2. 联合图像-视频微调:通过联合优化图像和视频的损失函数,LaVie避免了灾难性遗忘问题,显著提升了生成效果。
  3. Vimeo25M数据集:本文提出的高质量数据集为T2V生成任务提供了丰富的训练数据,进一步提升了模型的性能。
  4. 广泛应用:LaVie不仅在T2V生成任务中表现出色,还在长视频生成和个性化视频生成等任务中展示了其潜力。

研究意义

LaVie的研究为T2V生成领域提供了新的思路和方法。通过引入简单的时间自注意力机制和联合图像-视频微调策略,LaVie在生成视频的质量和多样性方面取得了显著进展。此外,本文提出的Vimeo25M数据集为未来的T2V研究提供了宝贵的数据资源。LaVie的成功应用不仅推动了视频生成技术的发展,还为电影制作、视频游戏和艺术创作等领域提供了新的可能性。