以下是根据您提供的文档生成的学术报告:
这篇文章题为《CAD-MLLM: Unifying Multimodality-Conditioned CAD Generation with MLLM》,主要作者包括 Jingwei Xu、Chenyu Wang、Zibo Zhao、Wen Liu、Yi Ma 和 Shenghua Gao,他们分别隶属于上海科技大学、TranscendGram、DeepSeek AI 和香港大学等机构。该论文发表于 Journal of Latex Class Files 第14卷第8期,发布日期为2015年8月。
本文集中探讨了计算机辅助设计(CAD)领域中的多模态生成问题。CAD技术是利用计算机帮助创建、修改和优化某些工业对象的技术,广泛应用于建筑设计、汽车制造、航空航天等工业领域。然而,目前的传统CAD系统需要专业设计人员通过复杂的操作序列来生成或修改设计模型,对非专业用户不够友好。此外,随着用户需求的提升,能够根据文本描述、图像或点云等多模态数据直接生成CAD模型的能力变得极为重要。
现有的CAD生成方法包括DeepCAD、Img2CAD、Text2CAD、Point2Cyl等,但这些方法通常仅针对单一模态(如图像或文本)输入进行建模。为了解决这一问题,本文提出了CAD-MLLM框架,这是第一个能够融合不同模态(多视图图像、文本、点云等)的条件生成CAD模型的系统。
本文旨在开发一个统一的框架,能够通过文本、图像、点云等多模态输入或其组合生成参数化CAD模型,同时保持对噪声和数据丢失的强鲁棒性。
为支持此研究,作者设计了一套综合性的数据构建与标注流程,创建了支持多模态输入的全新CAD数据集Omni-CAD。进一步,论文提出了评估CAD模型生成质量的新指标,包括拓扑质量和表面闭合度评价方法。
CAD-MLLM框架的核心是利用大规模多模态语言模型(Multimodal Large Language Models, MLLM)协调多模态数据的特征空间与CAD模型的参数化表示,具体包括以下模块:
视觉数据对齐模块: 使用预训练的视觉编码器(如DINO v2)提取多视图图像中的视觉特征,并通过感知器架构(Perceiver-based Transformer)将信息集成到一组可优化的查询标记中,再经过特征投影层映射到与LLM兼容的特征空间。
点云数据对齐模块: 使用点云编码器(如Michelangelo)提取点云特征,并通过线性特征投影层嵌入语言模型的特征空间。
语言模型适配(LoRA-Based Finetuning): 使用参数高效微调技术低秩适配(Low-Rank Adaptation, LoRA)优化LLM(如Vicuna-7B),以预测CAD模型的操作序列。
数据标注管道: 使用开源的MLLM(如 InternV2-26B)生成CAD模型的文本描述,生成过程采用标准化提示,从多视图图像生成文字描述。
为了克服现有CAD数据集规模小、模态单一的缺陷,论文提出了一个新数据集Omni-CAD: 1. 数据来源:基于公开的ABC模型集合,扩展了DeepCAD的处理方法,将富有挑战性的中间步骤也纳入数据增强。 2. 数据规模:最终包含453,220个增强后的CAD模型操作序列。 3. 多模态输入:生成了每个CAD模型的多视图图像、点云,以及通过MLLM描述生成的文本。
除了采样点云和拓扑片段结构的传统重建度量外,本文引入了三个拓扑指标和一个闭合错误指标: 1. Segment Error (SEGE): 评估生成模型的段落拓扑精度。 2. Dangling Edge Length (DANGEL): 量化悬空边的总长度。 3. Self-Intersection Ratio (SIR): 评估网格自交比率。 4. Flux Enclosure Error (FluxEE): 基于高斯散度理论计算模型的闭合程度。
作者对其框架进行了全面的实验并取得以下结果:
点云条件生成:
图像条件生成:
文本条件生成:
多模态输入:
泛化能力:
CAD-MLLM的提出填补了多模态条件CAD生成领域的空白。其不仅实现了点云、图像、文本等多模态的统一处理,还提出了评价生成模型的新指标,为领域研究树立了新范式。
其科学价值在于: 1. 大幅降低生成CAD模型的知识门槛,使非专业用户能够借助简单说明和输入生成复杂设计。 2. 为多模态语言模型在工业设计中的深化应用奠定了基础。
其应用价值在于: 1. 可用于建筑、航空航天、制造等多个领域的工程设计。 2. 为交互式人机协作设计工具提供技术支持,提升设计效率。
本研究提出的CAD-MLLM框架在多模态条件生成CAD模型任务上展示了显著的性能优越性和综合应用潜力。未来的研究可以进一步提升模型对复杂几何结构的生成能力,同时优化输入模态间的协同效率。