Aniclipart:基于文本到视频先验的剪贴画动画生成
学术背景与问题提出
Clipart(剪贴画)作为一种预制的图形艺术形式,广泛应用于文档、演示文稿和网站中,能够快速提升视觉内容的吸引力。然而,将静态的剪贴画转换为动态序列的传统工作流程非常繁琐且耗时,通常涉及复杂的步骤,如骨骼绑定(rigging)、关键帧动画(keyframing)和中间帧生成(inbetweening)。近年来,文本到视频生成(text-to-video generation)技术的进步为解决这一问题提供了新的可能性。然而,直接应用现有的文本到视频生成模型往往难以保留剪贴画的视觉特征或生成卡通风格的运动,导致动画效果不尽如人意。
本文提出了一种名为AniClipart的系统,旨在通过文本到视频的先验知识,将静态剪贴画转换为高质量的运动序列。该系统通过定义关键点的贝塞尔曲线(Bézier curves)作为运动轨迹,结合视频分数蒸馏采样(Video Score Distillation Sampling, VSDS)损失函数,从预训练的文本到视频扩散模型中提取自然运动知识,从而生成流畅的卡通风格动画。此外,AniClipart还引入了可微分的“尽可能刚性”形状变形算法(As-Rigid-As-Possible, ARAP),确保在动画过程中保持剪贴画的形状刚性。
论文来源与作者信息
本文由Ronghuan Wu、Wanchao Su、Kede Ma和Jing Liao共同撰写,分别来自香港城市大学和莫纳什大学。论文于2024年11月18日被International Journal of Computer Vision期刊接受,并于2024年3月31日提交。
研究流程与方法
1. 剪贴画预处理
在动画生成之前,首先需要对剪贴画进行预处理。这一步骤类似于传统动画制作中的角色绑定(rigging),主要包括以下几个步骤:
关键点检测:使用UniPose算法检测剪贴画中的关键点,并为每个关键点构建骨骼结构。UniPose是一种端到端的、基于提示的关键点检测框架,能够识别多种对象的关键点,包括关节对象(如人类)、刚性对象和软体对象。
骨架生成:对于更广泛的类别(如海洋生物和植物),采用三步法生成骨架:首先将彩色剪贴画转换为二值图像,检测边界点;然后通过向内传播边缘生成直线骨架;最后对骨架进行修剪和简化,去除不必要的细节。
三角网格构建:使用三角剖分算法(triangulation algorithm)为剪贴画构建三角网格,以便后续的形状变形操作。
2. 贝塞尔驱动动画
为了生成流畅的动画,AniClipart为每个关键点定义了一条贝塞尔曲线作为运动轨迹。具体步骤如下:
贝塞尔曲线初始化:为每个关键点定义一条三次贝塞尔曲线,曲线的起点与关键点的初始位置对齐,其余三个控制点随机初始化,确保初始运动幅度适中。
关键帧生成:在动画的每个时间步长(timestep)上,沿着贝塞尔曲线采样点,确定关键点的新位置。然后使用ARAP算法根据这些新位置调整整个剪贴画的形状,生成新的帧。
视频生成:通过可微分渲染器将变形后的剪贴画转换为像素图像,并将所有帧按时间顺序堆叠,生成最终的动画视频。
3. 损失函数
为了确保生成的动画与文本提示对齐,并保持剪贴画的视觉特征,AniClipart引入了两种损失函数:
视频分数蒸馏采样损失(VSDS Loss):通过将生成的视频输入预训练的文本到视频扩散模型,计算模型预测的噪声与实际噪声之间的差异,从而优化贝塞尔曲线的参数,使动画与文本描述对齐。
骨架损失(Skeleton Loss):为了保持剪贴画的形状完整性,计算骨架长度的变化,确保动画过程中骨架的长度变化最小。
最终的损失函数为VSDS损失和骨架损失的加权和,通过Adam优化器进行优化。
实验结果与结论
1. 实验结果
AniClipart在多个实验中表现出色,能够生成与文本提示对齐、视觉特征保持良好且运动一致的动画。与现有的图像到视频生成模型相比,AniClipart在文本-视频对齐、视觉特征保持和运动一致性方面均表现更优。此外,AniClipart还展示了其在处理分层动画(layered animation)等复杂动画格式时的灵活性。
2. 结论
AniClipart通过定义关键点的贝塞尔曲线作为运动轨迹,结合视频分数蒸馏采样损失和骨架损失,成功实现了从文本描述生成高质量剪贴画动画的目标。该系统无需额外的训练数据集,能够从预训练的文本到视频扩散模型中提取运动先验知识,并通过ARAP变形算法保持剪贴画的形状刚性。实验结果表明,AniClipart在生成动画的质量和灵活性方面均优于现有方法。
3. 研究亮点
自动动画生成:AniClipart能够根据文本描述自动生成剪贴画动画,显著减少了传统动画制作的工作量。
运动轨迹优化:通过贝塞尔曲线和VSDS损失,AniClipart能够生成语义上有意义的运动,同时保持卡通风格的剪贴画运动模式。
形状保持:结合ARAP变形算法和骨架损失,AniClipart在动画过程中有效保持了剪贴画的视觉特征。
未来工作与局限性
尽管AniClipart在生成动画方面表现出色,但仍存在一些局限性。例如,在处理复杂场景和包含多个对象的剪贴画时,系统的表现有所下降。未来的研究计划包括进一步自动化关键点检测和分层动画生成流程,以及探索如何更好地处理复杂场景中的多对象动画。
总结
AniClipart为剪贴画动画生成提供了一种高效且灵活的解决方案,能够根据文本描述自动生成高质量的动画序列。该系统通过结合贝塞尔曲线、视频分数蒸馏采样和ARAP变形算法,成功解决了传统动画制作中的繁琐问题,为未来的自动动画生成研究提供了新的方向。