本研究的主要作者包括Shiwei Liu、Peizhe Li、Jinshan Zhang、Yunzhengmao Wang、Haozhe Zhu、Wenning Jiang、Shan Tang、Chixiao Chen、Qi Liu和Ming Liu。他们分别来自复旦大学(Fudan University)、Birentech公司以及鹏城实验室(Peng Cheng Laboratory)。该研究于2023年发表在IEEE国际固态电路会议(ISSCC)上。
Transformer网络(如BERT、GPT和AlphaFold)在多种人工智能任务中展现了前所未有的进展。然而,随着网络规模的扩大,参数数量急剧增加(例如GPT-3拥有1750亿参数),这对计算硬件和内存提出了极高的要求。为了应对这一问题,计算内存一体化(Compute-in-Memory, CIM)架构被提出,以优化矩阵乘法和局部注意力机制的计算效率。然而,现有的CIM架构在处理非结构化稀疏神经网络(unstructured pruned NNs)时面临显著精度损失的问题。因此,本研究旨在设计一种高效的Transformer加速器,能够在处理非结构化稀疏神经网络时保持高能效和高精度。
本研究的主要流程包括以下几个步骤:
架构设计:研究提出了一种基于蝴蝶网络(butterfly network)的稀疏感知前馈计算架构,能够跳过不规则分布的零权重。该架构包括一个32-8的内存稀疏到密集路由阵列(IMPERA),用于根据稀疏位掩码提取需要计算的输入。此外,还设计了一个基于数字CIM的局部注意力可重用引擎,支持可变稀疏注意力范围和QK共享。
实验验证:研究团队在28nm CMOS工艺下实现了该加速器,并对其进行了详细的性能评估。实验结果表明,该加速器在Enwik-8和Text-8两个常见的自然语言处理(NLP)数据集上,能够在75%的权重被剪枝的情况下保持精度。
电路设计:研究还详细介绍了蝴蝶网络的路由阵列电路设计。通过使用10T-SRAM单元和级联传输门(transmission gates, TG),该设计在功耗和面积上均优于传统的数字VLSI方法。
系统集成:加速器由4个Transformer核心、一个系统控制器和一个64KB的输入特征缓冲区组成。每个核心包含16个前馈宏(FFM)、一个注意力引擎和用于计算对数softmax概率的后处理引擎(PPE)。这些模块可以根据不同的计算模式进行配置,以支持Transformer的自注意力机制。
研究的主要结果包括: - 该加速器在28nm CMOS工艺下实现了53.83 TOPS/W的能效和0.85 TOPS/mm²的面积效率。 - 在Enwik-8和Text-8任务中,该加速器在75%权重剪枝的情况下仅导致0.004/0.047 bits-per-character(bpc)的精度损失,优于16×16块状结构化剪枝方法。 - 通过局部注意力和QK共享机制,该加速器进一步实现了6.37×/5.99×的能效提升和3.61×/3.26×的CIM内存减少。
本研究提出了一种高效的Transformer加速器,能够有效处理非结构化稀疏神经网络,并在保持高精度的同时显著提升能效和面积效率。该研究的科学价值在于提出了一种创新的稀疏感知计算架构,解决了现有CIM架构在处理非结构化稀疏神经网络时的精度损失问题。其应用价值在于为大规模Transformer模型的硬件加速提供了新的解决方案,特别是在自然语言处理等领域具有广泛的应用前景。
研究团队还详细介绍了加速器的电路设计,特别是10T-SRAM单元的使用,显著降低了功耗和面积。此外,研究还展示了加速器在Enwik-8和Text-8任务中的性能评估结果,证明了其在自然语言处理任务中的高效性。
总之,本研究为Transformer模型的硬件加速提供了新的思路和方法,具有重要的科学和应用价值。