基于内存计算的28纳米53.8TOPS/W 8位稀疏Transformer加速器

分享自：

基于内存计算的28纳米53.8TOPS/W 8位稀疏Transformer加速器

人工智能

半导体科学与信息器件

期刊:2023 IEEE International Solid-State Circuits Conference

【点击此处】阅读全文、收藏及针对性提问

作者及研究机构本研究的主要作者包括Shiwei Liu、Peizhe Li、Jinshan Zhang、Yunzhengmao Wang、Haozhe Zhu、Wenning Jiang、Shan Tang、Chixiao Chen、Qi Liu和Ming Liu。他们分别来自复旦大学（Fudan University）、Birentech公司以及鹏城实验室（Peng Cheng Laboratory）。该研究于2023年发表在IEEE国际固态电路会议（ISSCC）上。
学术背景Transformer网络（如BERT、GPT和AlphaFold）在多种人工智能任务中展现了前所未有的进展。然而，随着网络规模的扩大，参数数量急剧增加（例如GPT-3拥有1750亿参数），这对计算硬件和内存提出了极高的要求。为了应对这一问题，计算内存一体化（Compute-in-Memory, CIM）架构被提出，以优化矩阵乘法和局部注意力机制的计算效率。然而，现有的CIM架构在处理非结构化稀疏神经网络（unstructured pruned NNs）时面临显著精度损失的问题。因此，本研究旨在设计一种高效的Transformer加速器，能够在处理非结构化稀疏神经网络时保持高能效和高精度。
研究流程本研究的主要流程包括以下几个步骤：
架构设计：研究提出了一种基于蝴蝶网络（butterfly network）的稀疏感知前馈计算架构，能够跳过不规则分布的零权重。该架构包括一个32-8的内存稀疏到密集路由阵列（IMPERA），用于根据稀疏位掩码提取需要计算的输入。此外，还设计了一个基于数字CIM的局部注意力可重用引擎，支持可变稀疏注意力范围和QK共享。
实验验证：研究团队在28nm CMOS工艺下实现了该加速器，并对其进行了详细的性能评估。实验结果表明，该加速器在Enwik-8和Text-8两个常见的自然语言处理（NLP）数据集上，能够在75%的权重被剪枝的情况下保持精度。
电路设计：研究还详细介绍了蝴蝶网络的路由阵列电路设计。通过使用10T-SRAM单元和级联传输门（transmission gates, TG），该设计在功耗和面积上均优于传统的数字VLSI方法。
系统集成：加速器由4个Transformer核心、一个系统控制器和一个64KB的输入特征缓冲区组成。每个核心包含16个前馈宏（FFM）、一个注意力引擎和用于计算对数softmax概率的后处理引擎（PPE）。这些模块可以根据不同的计算模式进行配置，以支持Transformer的自注意力机制。
主要结果研究的主要结果包括： - 该加速器在28nm CMOS工艺下实现了53.83 TOPS/W的能效和0.85 TOPS/mm²的面积效率。 - 在Enwik-8和Text-8任务中，该加速器在75%权重剪枝的情况下仅导致0.004/0.047 bits-per-character（bpc）的精度损失，优于16×16块状结构化剪枝方法。 - 通过局部注意力和QK共享机制，该加速器进一步实现了6.37×/5.99×的能效提升和3.61×/3.26×的CIM内存减少。
结论与意义本研究提出了一种高效的Transformer加速器，能够有效处理非结构化稀疏神经网络，并在保持高精度的同时显著提升能效和面积效率。该研究的科学价值在于提出了一种创新的稀疏感知计算架构，解决了现有CIM架构在处理非结构化稀疏神经网络时的精度损失问题。其应用价值在于为大规模Transformer模型的硬件加速提供了新的解决方案，特别是在自然语言处理等领域具有广泛的应用前景。
研究亮点创新性架构：基于蝴蝶网络的稀疏感知前馈计算架构和IMPERA路由阵列是该研究的核心创新点，能够有效处理非结构化稀疏神经网络。
高能效与高精度：该加速器在28nm CMOS工艺下实现了53.83 TOPS/W的能效，并在75%权重剪枝的情况下保持了高精度。
局部注意力与QK共享：通过局部注意力机制和QK共享，该加速器进一步提升了能效和内存效率。
其他有价值的内容研究团队还详细介绍了加速器的电路设计，特别是10T-SRAM单元的使用，显著降低了功耗和面积。此外，研究还展示了加速器在Enwik-8和Text-8任务中的性能评估结果，证明了其在自然语言处理任务中的高效性。
本研究为Transformer模型的硬件加速提供了新的思路和方法，具有重要的科学和应用价值。

上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com

【点击此处】阅读全文、收藏及针对性提问