本研究的主要作者包括Haoyu Zhao、Hao Wang、Xingyue Zhao、Hongqiu Wang、Zhiyu Wu、Chengjiang Long和Hua Zou。他们分别来自武汉大学计算机学院、华中科技大学武汉光电国家研究中心、Meta Reality Lab、西安交通大学软件学院、香港科技大学(广州)系统枢纽系以及复旦大学计算机学院。该研究于2024年11月19日发布在arXiv预印本平台上。
随着3D生成模型的快速发展,动态3D物体运动的模拟和行为的定制化成为了可能。然而,现有的方法通常需要手动分配精确的物理属性,或者依赖于视频生成模型来预测这些属性,这导致了高昂的计算成本。本文提出了一种名为Sim Anything的物理模拟方法,旨在通过多模态大语言模型(MLLM)实现静态3D物体的动态交互。该研究的背景知识包括3D表示(如NeRF和3D高斯泼溅)以及物理模拟器的集成。研究的主要目标是开发一种能够自动预测物体物理属性并生成逼真动态行为的方法。
研究流程分为以下几个步骤:
场景重建与物体分割:首先,研究团队通过多视角图像重建3D场景,并使用开放词汇分割模型(如Grounding DINO、SAM和RAM)对场景中的物体进行分割。这一步骤确保了每个物体在3D空间中的精确定位和语义标注。
物理属性感知:受人类视觉推理的启发,研究团队提出了基于MLLM的物理属性感知模型(MLLM-P3),用于零样本预测物体的平均物理属性。具体来说,MLLM-P3通过图像和文本描述生成候选材料列表,并使用CLIP模型选择最匹配的材料,最终预测物体的密度、杨氏模量和泊松比等物理属性。
材料属性分布预测:基于MLLM-P3预测的平均值和物体的几何形状,研究团队提出了材料属性分布预测模型(MPDP),将物理属性预测问题重新定义为概率分布估计问题,从而减少了计算成本。
物理模拟:研究团队使用物理几何自适应采样策略(PGAS)对物体进行粒子采样,并通过材料点方法(MPM)模拟物体的动态行为。PGAS策略根据物体的杨氏模量和曲率自适应调整采样半径,从而在保证模拟精度的同时显著降低了计算复杂度。
研究团队通过大量实验和用户研究验证了Sim Anything的有效性。实验结果表明,Sim Anything能够在单GPU上在2分钟内生成比现有方法更逼真的3D动态效果。具体来说,Sim Anything在物理属性预测的准确性和动态模拟的逼真度方面均优于现有的最先进方法(如PhysGaussian、DreamGaussian4D和PhysDreamer)。此外,用户研究显示,Sim Anything生成的动态视频在运动真实感和美学质量上均获得了更高的评分。
Sim Anything的研究为3D物理模拟领域带来了重要的创新。首先,它是首个利用MLLM进行零样本物理属性预测的方法,显著提高了物理属性预测的效率和准确性。其次,通过将物理属性预测问题重新定义为概率分布估计问题,Sim Anything在保持高精度的同时大幅降低了计算成本。最后,Sim Anything的物理几何自适应采样策略(PGAS)为复杂形变的高效模拟提供了新的解决方案。
该研究的科学价值在于为3D物理模拟提供了一种全新的方法,能够自动预测物体的物理属性并生成逼真的动态行为。其应用价值广泛,涵盖了虚拟现实、机器人仿真和交互式3D内容生成等领域。
研究团队还指出了Sim Anything的局限性,即在复杂环境中部分遮挡的物体无法被完整分割,导致模拟效果不自然。未来的研究将致力于利用生成模型重建被遮挡部分,从而进一步提升模拟的逼真度和应用范围。
Sim Anything为3D物理模拟领域带来了重要的技术突破,为未来的虚拟现实和交互式3D内容生成提供了新的可能性。