本文介绍了一项由Yiwei Hu、Paul Guerrero、Miloš Hašan、Holly Rushmeier和Valentin Deschaintre等研究人员共同完成的研究,题为《Generating Procedural Materials from Text or Image Prompts》。该研究于2023年8月6日至10日在洛杉矶举行的SIGGRAPH ‘23会议论文集上发表。研究的主要机构包括耶鲁大学和Adobe Research,研究团队来自美国、英国等多个地区。
该研究属于计算机图形学领域,特别是材料设计(material design)和程序化材料生成(procedural material generation)的子领域。程序化材料是通过节点图(node graphs)来表示的,这些节点图由一系列图像生成器或滤波操作符组成,节点之间通过有向边连接,定义了计算流程。节点图系统在计算机图形学中被广泛用于材料设计,允许用户通过可视化编程实现复杂的效果,而无需编写代码。然而,掌握节点图的创建通常需要专业的培训,限制了普通用户的使用。
为了降低用户探索设计空间的门槛,研究团队提出了一种能够从不同类型的提示(如图像或文本)生成多个节点图的算法。此前的研究(如Guerrero等人2022年的工作)仅限于无条件生成随机节点图,难以生成用户设想的特定材料。本文提出的多模态节点图生成神经网络架构,能够基于文本或图像提示生成高质量的程序化材料。
研究的主要目标是开发一种能够从文本或图像提示生成程序化材料节点图的生成模型。具体来说,研究团队提出了一个多模态条件生成模型,能够根据用户提供的图像、文本提示或部分节点图生成多种节点图结构。以下是研究的详细流程:
节点图表示:程序化材料通过有向无环图(DAG)表示,图中的节点代表图像操作符,边定义操作符之间的信息流。每个节点由操作类型和一组控制操作的参数定义。
条件生成模型:研究团队基于Matformer(Guerrero等人2022年提出的无条件生成模型)进行了改进,使其能够根据图像或文本提示生成节点图。模型通过CLIP编码器对输入进行编码,并使用可学习的多层感知器(MLP)将编码的特征向量映射到Transformer编码器的隐藏状态维度。
数据集增强:为了训练条件生成模型,研究团队从Substance Source中整理了一个新的材料节点图数据集,并进行了大量的数据增强和预处理。数据集的增强包括图结构的简化、参数增强等,以提高生成质量。
采样与优化:在推理阶段,研究团队提出了采样正则化和后采样优化步骤,以确保生成的节点图在图像空间中的匹配质量。通过可微分优化(differentiable optimization)对生成的节点图进行微调,以更好地匹配输入提示。
研究的主要成果包括: 1. 多模态条件生成:模型能够根据图像、文本提示或部分节点图生成多种节点图结构。生成的节点图在语义、结构和颜色上与输入提示高度匹配。 2. 数据集增强:通过数据增强和清理策略,研究团队显著扩展了模型能够处理的材料空间。 3. 采样正则化与优化:通过采样正则化和后采样优化步骤,生成的节点图在图像空间中的匹配质量得到了显著提升。
该研究提出了一种新的多模态条件生成模型,能够根据图像或文本提示生成高质量的程序化材料节点图。这一模型为用户探索材料设计空间提供了新的工具,并具有自动视觉编程完成等应用潜力。研究的科学价值在于其首次实现了基于条件的程序化材料节点图生成,扩展了计算机图形学中材料设计的可能性。
研究团队指出,未来的工作可以进一步扩展数据集,并改进节点图的质量。此外,研究还提出了在训练和推理过程中直接最小化图像/文本空间误差的可能性,以进一步提高生成模型的性能。
总的来说,该研究为程序化材料生成领域提供了新的工具和方法,具有重要的科学和应用价值。