本文介绍了一项关于三维网格(mesh)深度学习的原创研究,题为《MWFormer: Mesh Understanding with Window-based Transformer》。该研究由清华大学计算机科学与技术系的Hao-Yang Peng、Meng-Hao Guo、Zheng-Ning Liu、Yong-Liang Yang和Tai-Jiang Mu共同完成,并于2023年7月发表在《Computers & Graphics》期刊上。该研究提出了一种基于Transformer的自注意力机制,结合下采样架构,用于捕捉网格面片之间的全局和局部关系,显著提升了网格分类和分割任务的性能。
三维网格是三维形状的常见表示形式,包含顶点、边和面三个基本元素。相比于点云,网格能够更有效地表达三维物体的表面,并保留几何和拓扑信息。随着深度学习在图像处理领域的成功,许多研究尝试将卷积神经网络(CNN)应用于三维网格数据。然而,由于卷积操作的局部性,这些方法往往忽略了网格面片之间的全局连接。为了解决这一问题,本文提出了一种基于Transformer的架构,通过自注意力机制捕捉网格面片之间的全局关系。
本文的研究流程主要包括以下几个步骤:
网格特征提取:首先,将输入的三角网格表示为面片的集合,每个面片包含面积、法向量、中心点、角度和曲率等特征。这些特征被编码为一个13维的向量,作为后续处理的输入。
BFS-Pooling操作:为了将网格转换为适合Transformer处理的离散标记(token),本文提出了一种基于广度优先搜索(BFS)的池化操作(BFS-Pooling)。该操作通过均匀采样面片作为初始中心,并使用BFS算法将相邻面片聚合为一个个面片块(patch)。每个面片块的特征通过平均池化进行聚合,形成新的标记。
Mesh Window Transformer(MWFormer)架构:基于BFS-Pooling操作,本文设计了一种分层的Transformer架构,称为MWFormer。该架构采用窗口化的局部注意力机制,能够在不同窗口内捕捉面片之间的局部关系,并通过重采样策略增强全局连接。MWFormer的每个Transformer块包含自注意力模块和前馈模块,能够有效提取网格的全局和局部特征。
卷积操作的引入:为了进一步增强局部特征的提取能力,MWFormer在每个Transformer块后引入了卷积操作,用于聚合相邻面片的特征。
本文在多个公开的三维网格数据集上进行了实验,验证了MWFormer在网格分类和分割任务中的有效性。
网格分类任务:在SHREC11和Manifold40数据集上,MWFormer在分类任务中取得了最佳或接近最佳的性能。特别是在SHREC11数据集的Split-10和Split-16协议下,MWFormer的分类准确率达到了100%。此外,在少样本学习场景下,MWFormer也表现出了较强的迁移学习能力。
网格分割任务:在Coseg数据集(包括Aliens、Vases和Chairs三个子集)上,MWFormer在分割任务中取得了优于或接近现有方法的性能。实验结果表明,MWFormer能够有效处理复杂的网格结构,并且在非流形网格上也能直接应用,无需预处理。
本文的主要贡献包括: 1. 提出了一种通用的池化方法BFS-Pooling,能够将不同大小的网格高效地转换为离散标记,并构建分层的神经网络架构。 2. 设计了MWFormer,一种基于Transformer的网格处理方法,能够有效学习网格面片的局部和全局表示。 3. 在网格分类和分割任务中,MWFormer取得了最佳或接近最佳的性能,证明了其在三维网格深度学习中的潜力。
该研究的科学价值在于提出了一种新的网格处理方法,能够同时捕捉网格的局部和全局特征,弥补了传统CNN方法在全局连接上的不足。此外,BFS-Pooling操作的引入为网格数据的下采样提供了一种新的思路,具有广泛的应用前景。
未来的研究可以进一步优化MWFormer的效率,特别是在处理大规模场景分割任务时,减少计算和内存开销。此外,可以探索更均匀的采样方法,如Lloyd算法,以进一步提升MWFormer的性能。
总之,本文提出的MWFormer为三维网格深度学习提供了一种新的解决方案,具有重要的理论和应用价值。