类型b
曹振中1,2,3,光金正1,2,3,张千一1,2,3,胡郑希1,2,3,吴仕超1,2,3,刘景泰1,2,3来自南开大学人工智能学院机器人与信息自动化研究所,天津市智能机器人技术重点实验室,可信行为智能算法与系统教育部工程研究中心。他们的综述文章《基于 3d高斯溅射的 3维重建技术综述》(survey of 3d reconstruction techniques based on 3d gaussian splatting)发表于2024年9月的《机器人》(robot)期刊第46卷第5期。
本文主要讨论了基于3D高斯溅射(3D Gaussian Splatting, 3D GS)的三维重建技术,分析其技术精髓和应用潜力,并全面梳理了该技术在视觉SLAM(同步定位与地图构建)、动态场景重建、生成式AI(人工智能)以及自动驾驶领域的应用。
3D高斯溅射技术通过使用数以万计的3D高斯基元来紧凑地表达某个场景,并通过分块并行光栅化的方式实现高效的图像渲染。其核心技术包括SFM点云初始化、3D高斯椭球集初始化、3D椭球参数投影、光栅化图像渲染、损失计算以及自适应密度控制等模块。每个模块都对整个流程的高效性和准确性起到了关键作用。例如,在SFM点云初始化步骤中,利用一组2D图像恢复出场景的稀疏3D点云,从而为后续的场景优化提供了良好的基础。
辐射场是3D空间中光分布的表示,传统方法如神经辐射场(NeRF)采用隐式辐射场技术,而3D GS则采用显式辐射场技术。NeRF使用多层感知机(MLP)将空间坐标映射到像素值,其核心思想是通过体渲染(volume rendering)得到最终颜色。相比之下,3D GS技术不仅能够实现实时渲染,还提高了场景的可编辑性。表1展示了3D GS和NeRF技术在训练和渲染时间上的对比,显示3D GS技术具有显著优势。
视觉SLAM(Visual SLAM)是机器人利用视觉传感器进行同步定位和地图构建的一种技术。传统的视觉SLAM算法通常把定位放在首位,建图只是辅助定位的一种手段。然而,随着NeRF的提出,许多研究人员尝试将NeRF方法应用到SLAM算法中。尽管这些基于NeRF的SLAM算法达到了不错的建图效果,但其渲染速度慢且占用资源多。3D GS技术的出现解决了这些问题,实现了快速的渲染和高保真的重建。例如,splatam、gs-slam、gaussian-slam等算法成功地将3D GS与SLAM结合起来,实现了实时渲染和高精度建图。
动态场景重建是一种利用多个视频帧数据重建出场景3D动态模型的技术。传统的基于NeRF的方法虽然取得了一定进展,但其训练时间和渲染速度使得动态场景实时重建仍然存在困难。4D GS技术应运而生,它将3D GS技术在时序上进行扩展和改进,为3D高斯基元增加了适应场景变形和运动的属性。例如,文[51-52]首次引入4D GS的概念,着重于将动态场景中的时空元素统一起来,有效减少了动态场景重建所需要的内存空间。
AIGC(人工智能生成内容)指的是使用人工智能技术来自动创建内容,包括文本、图像、视频、音乐等多种形式。当前文本到3D模型的生成工作大多基于分数蒸馏采样和扩散模型的方法,但这些方法通常存在渲染过程缓慢、训练和优化时间过长的问题。3D GS技术凭借显式表达法提升了场景的可编辑性,同时保持了实时渲染的优势。例如,文[66-70]是对传统的SDS(Score Distillation Sampling)方法的改进,提出了新颖的文本到3D场景的生成方法,有效生成具有精细细节和准确几何形状的3D模型。
自动驾驶需要识别和感知周围的环境,包括实时准确地重建周围场景(静态背景和动态物体)。NeRF技术虽然可以实现逼真的视图合成和3D重建效果,但训练和渲染速度太慢,与自动驾驶所需的实时性相悖。因此,3D GS技术的出现可以解决实时渲染的问题。例如,文[88]引入了街道级的高斯基元表示,实现了动态物体和静态背景的准确分割和合成效果。
本文全面梳理了基于3D高斯溅射的三维重建技术在多个领域的应用,展示了其在新视图合成质量和场景渲染速度两方面的突出优势。此外,文章还展望了3D GS技术在未来的发展趋势,包括受限视角下的研究、内存紧张条件下的优化、与语义分割结合以及与机械臂抓取结合等方向。3D GS技术兼顾了精度和实时性,因此在机器人与人协作共融方面具有发掘潜力。通过本文的梳理和展望,希望可以为研究者们进一步改进3D GS技术,为其在机器人领域的应用和创新提供帮助。