一种增强几何控制和多视图一致性的统一网格和纹理生成框架
学术背景
随着游戏、建筑和社交媒体等行业对高质量3D内容的需求不断增加,手动创建3D资产的过程不仅耗时且技术复杂,还成本高昂。特别是在游戏行业,角色和家具等资产的审美质量直接影响游戏环境的沉浸感。建筑行业则需要精确的建筑模型进行可视化、模拟和规划。社交媒体平台则越来越多地利用3D内容增强现实(AR)和虚拟现实(VR)体验。然而,3D模型的真实感往往依赖于详细的网格表示,包括顶点、边、面和纹理。因此,自动化生成可控、高质量的纹理网格成为迫切需求。
现有的生成模型(如GET3D和3DGen)虽然能够同时生成几何和纹理,但往往在几何精度和纹理细节之间难以平衡,导致生成的3D形状几何结构不准确,纹理细节过于粗糙或不真实。为此,本文提出了一种新的框架,将几何生成和纹理生成分离,通过稀疏潜在点扩散模型(Sparse Latent Point Diffusion Model, SLIDE)实现对几何的精确控制,并通过多视图先验解决多视图纹理不一致的问题。
论文来源
本文由Jinyi Wang、Zhaoyang Lyu、Ben Fei等作者共同撰写,作者来自上海交通大学、香港中文大学和南洋理工大学等机构。论文于2024年12月1日发表在《International Journal of Computer Vision》期刊上。
研究流程与结果
1. 几何生成
1.1 点云编码与解码
本文首先采用点云作为中间表示,将密集点云编码为具有语义特征的稀疏潜在点,从而实现对几何的精确控制。具体来说,点云编码器将2048个点的点云通过四个层次的特征提取模块(Set Abstraction, SA)逐步减少到16个稀疏潜在点,并通过特征传递模块(Feature Transfer, FT)生成最终的点云特征表示。点云解码器则通过三个点云上采样模块(Point Upsampling, PU)将稀疏潜在点逐步上采样为2048个点的密集点云,并预测点云的法线。
1.2 稀疏潜在点扩散模型
在点云自编码器训练完成后,本文在潜在空间中训练了两个去噪扩散概率模型(Denoising Diffusion Probabilistic Models, DDPM)。第一个DDPM用于生成稀疏潜在点的位置分布,第二个DDPM则基于稀疏潜在点生成特征分布。通过这两个DDPM,本文实现了对几何形状的无条件和可控生成。可控生成通过调整稀疏潜在点的位置,生成相应的特征,并最终解码为点云。
1.3 结果
实验结果表明,本文提出的方法在几何生成方面表现出色,生成的网格具有平滑的表面和清晰的细节。通过稀疏潜在点的控制,本文能够灵活调整生成网格的整体形状和局部细节,且无需数据集的部件标注。此外,本文还展示了形状插值和形状组合的能力,进一步证明了该方法的多样性和灵活性。
2. 纹理生成
2.1 粗粒度纹理生成
在几何生成完成后,本文采用多视图扩散模型生成粗粒度纹理。具体来说,本文首先从四个视角(前、左、后、右)生成纹理,并通过深度条件扩散模型和多视图扩散模型结合,确保纹理在不同视角下的一致性。
2.2 细粒度纹理优化
粗粒度纹理生成后,本文通过细化阶段进一步提高纹理的分辨率和覆盖率。具体来说,本文将纹理图分为“细化区域”和“生成区域”,分别应用修复、去噪和投影技术,最终生成高分辨率、多视图一致的纹理。
2.3 结果
实验结果表明,本文提出的方法在纹理生成方面显著优于现有方法,生成的纹理具有更高的真实感和一致性。用户研究也表明,本文生成的纹理在整体质量、与提示的对齐以及纹理一致性方面均优于基线方法。
结论与意义
本文提出了一种统一的网格和纹理生成框架,通过稀疏潜在点扩散模型增强了几何控制能力,并通过多视图先验解决了多视图纹理不一致的问题。实验结果表明,本文方法在几何质量、控制能力和纹理一致性方面均优于现有方法,显著提升了复杂纹理3D内容的生成效果。本文的研究为计算机图形学和虚拟内容创建领域提供了新的思路和方法,具有重要的科学和应用价值。
研究亮点
- 几何与纹理分离生成:本文首次将几何生成和纹理生成分离,通过稀疏潜在点扩散模型实现对几何的精确控制,并通过多视图先验解决纹理不一致问题。
- 稀疏潜在点扩散模型:本文提出的稀疏潜在点扩散模型显著减少了几何生成的复杂性,并增强了对网格结构的控制能力。
- 多视图一致性纹理生成:本文通过多视图扩散模型和深度条件扩散模型的结合,实现了多视图一致的纹理生成,显著提升了纹理的真实感和一致性。
- 高效生成:本文方法在生成效率上显著优于现有方法,能够在短时间内生成高质量的几何和纹理。
其他有价值的信息
本文还展示了形状插值和形状组合的能力,进一步证明了该方法的多样性和灵活性。此外,本文通过用户研究验证了生成纹理的质量和一致性,结果表明本文方法在整体质量、与提示的对齐以及纹理一致性方面均优于基线方法。