分享自:

CASA:一种紧凑且可扩展的近似同态加密加速器

期刊:IACR Transactions on Cryptographic Hardware and Embedded SystemsDOI:10.46586/tches.v2024.i2.451-480

类型a:这篇文档报告了一项原创研究。

主要作者和机构及发表信息
本研究的主要作者包括Pengzhou He(来自Villanova University College of Engineering)、Samira Carolina Oliva Madrigal(来自San Jose State University)、Çetin Kaya Koç(来自University of California, Santa Barbara等多所大学)、Tianyou Bao和Jiafeng Xie(均来自Villanova University College of Engineering)。该研究于2024年3月12日发表在《IACR Transactions on Cryptographic Hardware and Embedded Systems》期刊上。

学术背景
本研究属于密码学与硬件加速领域,重点探讨了近似同态加密(Approximate Homomorphic Encryption, AHE)的实现方法。CKKS(Cheon-Kim-Kim-Song)是一种基于近似算术的同态加密方案,因其支持实数运算而被广泛认为是适用于现实世界数据隐私应用的最佳选择之一。然而,CKKS的关键交换(Key-Switching)操作带来了巨大的计算负担,并对硬件加速提出了可扩展性挑战。当前的研究主要集中在如何通过硬件加速器(如ASIC或FPGA)优化CKKS的操作性能。然而,现有硬件加速器存在复杂结构设计、有限灵活性以及缺乏显著算法创新等问题。为解决这些问题,本研究提出了一种名为CASA(Compact and Scalable Accelerator)的新型硬件加速器,旨在通过简化设计、提升性能和降低成本来满足资源受限场景下的需求。

研究流程
本研究分为三个层次展开:算术层、组件层和架构层。

  1. 算术层
    在算术层,研究开发了一种新的部分无约化模运算技术(Partially Reduction-Free Modular Arithmetic),以减少不同素数模数链中的约化成本。具体而言,研究分析了现有的模乘法和约化算法(如Montgomery和Blakely),并在此基础上提出了一种新颖的部分无约化全交织Karatsuba算法(PRF-FIKO)。该算法利用特殊形式的模多项式消除了传统约化电路的需求,从而显著降低了硬件复杂度。此外,研究还提出了一种多模移位乘法器(MMSM),用于高效处理双分区约化操作。

  2. 组件层
    在组件层,研究设计了多个核心模块,包括存储器组、数论变换(NTT)模块、模切换模块以及双积乘法和累加模块。对于NTT模块,研究采用了一种原地计算架构,将内存访问模式与数据流路由紧密结合,从而减少了逻辑电路的消耗。双积与累加模块则通过复用硬件资源实现了四种功能(双积乘法、双积累加、加法和重缩放)。此外,研究还优化了模切换模块的设计,使其能够在不同素数模之间高效转换。

  3. 架构层
    在架构层,研究提出了一种紧凑且可扩展的硬件框架,通过精细调整的微架构和简单的控制策略实现了高效的并行计算。研究使用参数nbf(蝶形核数量)作为设计变量,统一了整个加速器的配置。通过这种方式,研究确保了架构的可扩展性,并实现了各模块之间的紧密协作。例如,在关键交换操作中,研究通过流水线策略将NTT、双积乘法和模切换操作无缝连接,从而显著提高了整体性能。

主要结果
1. 算术层结果
研究提出的PRF-FIKO算法在模乘法和约化操作中表现出色。相比现有方法,该算法通过消除部分约化电路显著降低了硬件复杂度。实验表明,当nbf=8时,PRF-FIKO在延迟和面积消耗方面分别比现有方法减少了3.7倍和2.5倍。

  1. 组件层结果
    在组件层,研究的NTT模块通过原地计算架构显著减少了逻辑电路的消耗。实验表明,当nbf=8时,NTT模块的延迟仅为现有方法的50%。此外,双积与累加模块通过复用硬件资源实现了更高的资源利用率,其面积消耗比现有方法减少了40%。

  2. 架构层结果
    在架构层,研究的CASA加速器在资源受限设备(如Artix-7 FPGA)上表现出色。实验表明,当nbf=8时,CASA在延迟和面积消耗方面的综合性能(ADP)比现有方法提高了12.9%-21.9%。此外,CASA在关键交换操作中的吞吐量比现有方法提高了3.2-3.6倍。

结论
本研究提出了一种名为CASA的紧凑且可扩展的CKKS加速器,解决了现有硬件加速器在复杂性、灵活性和算法创新方面的不足。CASA通过引入部分无约化模运算技术、优化组件设计以及采用流水线策略,显著提升了CKKS操作的性能和效率。研究结果表明,CASA在资源受限设备上的表现尤为突出,其在延迟、面积消耗和功耗方面的综合性能优于现有方法。此外,CASA的设计具有良好的可扩展性,能够适应不同应用场景的需求。

研究亮点
1. 提出了一种新颖的部分无约化模运算技术(PRF-FIKO),显著降低了硬件复杂度。
2. 通过原地计算架构优化了NTT模块,减少了逻辑电路的消耗。
3. 设计了一种紧凑且可扩展的硬件框架,适用于资源受限设备。
4. 在关键交换操作中实现了高效的流水线策略,显著提高了整体性能。

其他有价值内容
研究还在Artix-7 FPGA设备上实现了CASA,并与现有CPU和GPU实现进行了对比。实验表明,CASA在延迟和功耗方面分别比现有方法减少了10.8倍和94.2倍。此外,研究还展示了CASA在不同参数集下的性能表现,进一步验证了其可扩展性和实用性。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com