更小但更好:用更小的大型语言模型统一布局生成

统一布局生成研究新突破:更小但更强的大语言模型

研究背景与问题提出

布局生成(Layout Generation)是计算机视觉和人机交互领域的重要研究方向,旨在通过算法自动生成符合特定需求的图形界面或排版设计。例如,科学文章、应用程序界面(App UI)、杂志页面以及幻灯片的设计都需要高效且灵活的布局生成方法。然而,传统方法通常针对单一任务或单一领域进行优化,缺乏跨任务和跨领域的通用性。随着深度学习技术的发展,基于Transformer架构的方法逐渐成为主流,但仍面临模型复杂度高、计算成本大等问题。

近年来,大语言模型(Large Language Models, LLMs)在自然语言处理(NLP)领域取得了显著进展,其强大的推理能力为解决复杂任务提供了新的可能性。然而,将LLMs应用于统一布局生成的研究仍处于初步阶段。现有方法存在以下局限性:1)模型规模庞大(如175B参数),导致训练和部署成本高昂;2)依赖HTML等冗长格式作为输入模板,增加了不必要的符号噪声;3)局限于特定任务或领域,无法实现真正意义上的通用性。

为了解决上述问题,华南理工大学的研究团队提出了LGGPT模型,这是一种基于小型LLM的统一布局生成框架,旨在通过创新的输入输出模板和量化编码策略,在保证性能的同时大幅降低计算开销。

论文来源

本论文由华南理工大学电子与信息工程学院的Peirong Zhang、Jiaxin Zhang、Jiahuan Cao、Hongliang Li和Lianwen Jin共同撰写,于2025年1月发表在《国际计算机视觉期刊》(International Journal of Computer Vision)。论文标题为“Smaller but Better: Unifying Layout Generation with Smaller Large Language Models”。


研究内容与方法

a) 研究流程

1. 数据预处理

研究团队整合了来自四个领域的五个公开数据集,包括科学文章(PubLayNet)、App UI(RICO)、杂志(Magazine)和幻灯片(Slide)。这些数据集经过标准化处理,所有布局元素的标签被统一为小写形式,并按比例缩放至固定尺寸(长边限制为1024像素)。此外,研究团队对数据进行了过滤和划分,确保训练集与测试集的比例一致,以便公平比较。

2. 模型设计

LGGPT的核心是一个1.5B参数的小型LLM(GPT2-XL),并引入了两项关键技术: - 任意布局指令(Arbitrary Layout Instruction, ALI):ALI是一种统一的输入模板,能够支持任意布局条件的组合。它包含前缀提示(Prefix Prompt)和主体提示(Body Prompt),分别描述布局类型、对象数量、列数以及具体的属性条件。 - 区间量化编码(Interval Quantization Encoding, IQE):IQE通过为每个几何属性添加独立的区间值,避免了传统占位符(Placeholder)的使用,从而压缩了输入序列的长度并提高了信息密度。

3. 模型训练

LGGPT采用教师强制(Teacher Forcing)策略进行训练,即将真实输出(Ground Truth)附加到输入提示后形成完整输入。优化目标是最小化预测布局标记的负对数似然(Negative Log-Likelihood)。训练过程中,研究团队采用了混合采样策略,同时处理多种生成任务(如补全、关系约束生成等)和单类型生成任务(如无条件生成)。

4. 解码方案

在推理阶段,LGGPT默认使用贪婪搜索(Greedy Search)作为基本解码策略,并辅以Top-K采样(K=50)。对于需要去噪的任务,则单独采用多项式采样(Multinomial Sampling)。


b) 主要结果

1. 单任务评估

研究团队在六个单独任务上对LGGPT进行了评估,包括布局补全(Completion)、基于类别的生成(Gen-T)、基于类别和尺寸的生成(Gen-TS)、关系约束生成(Relation)、去噪生成(Refinement)以及无条件生成(Gen-U/Gen-UP)。实验结果表明,LGGPT在大多数任务中均达到了顶级性能,尤其是在FID(Fréchet Inception Distance)和Max IoU(Maximum Intersection over Union)指标上表现突出。例如,在PubLayNet数据集上的补全任务中,LGGPT的FID仅为2.08,远低于基线方法(27.87)。

2. 混合任务评估

研究团队还设计了四种混合任务(如补全-去噪、任意条件生成等),以模拟更复杂的实际应用场景。结果显示,LGGPT在这些任务中同样表现出色,优于现有的LDGM模型。例如,在任意条件生成任务(Gen-Arb-Refine)中,LGGPT的FID仅为5.83,而LDGM的FID高达29.21。

3. 对比分析

为了验证ALI和IQE的有效性,研究团队进行了消融实验。结果表明,与传统的HTML格式相比,ALI显著减少了输入长度(从76个令牌降至54个令牌),并将推理时间从3.08秒缩短至1.83秒。此外,IQE策略使FID平均降低了约60%,进一步提升了模型性能。


c) 结论与意义

LGGPT的成功证明了小型LLM在统一布局生成中的潜力。该研究的主要贡献包括: 1. 提出了ALI和ULR(Universal Layout Response)作为统一的输入输出模板,实现了跨任务和跨领域的通用性; 2. 开发了IQE策略,有效压缩了输入序列并提高了信息密度; 3. 验证了1.5B参数规模的LLM在性能与效率之间达到了最佳平衡点。

这项研究不仅推动了布局生成技术的发展,还为其他多模态生成任务提供了重要参考。未来,研究团队计划进一步探索如何提升域通用性,并尝试将LGGPT应用于更多实际场景。


d) 研究亮点

  1. 跨任务与跨领域的统一性:LGGPT首次实现了任务通用和领域通用的布局生成,涵盖了11种常见任务和4个不同领域。
  2. 高效性与紧凑性:通过ALI和IQE,LGGPT在保持高性能的同时大幅降低了计算成本。
  3. 小型LLM的应用潜力:研究表明,1.5B参数规模的LLM足以应对复杂的统一生成任务,为资源受限环境下的应用提供了新思路。

e) 其他有价值的信息

研究团队开源了代码和数据集(GitHub链接),为后续研究提供了便利。此外,论文还详细讨论了未来可能的研究方向,例如结合相似领域的数据进行联合训练,以进一步提升域通用性能。