本文发表在《Nature》期刊上,题为“Fully hardware-implemented memristor convolutional neural network”,由Peng Yao、Huaqiang Wu等研究团队完成,研究单位包括清华大学微电子研究所、北京未来芯片创新中心、北京信息科学与技术国家研究中心,以及马萨诸塞大学阿默斯特分校电气与计算机工程系。文章于2020年1月29日在线发表。
卷积神经网络(CNN)作为一种深度神经网络(DNN)的重要形式,被广泛应用于图像识别、图像分割和目标检测等领域。然而,传统计算架构中内存和处理单元的物理分离(冯·诺依曼架构)会导致大量的数据搬运和功耗损耗,成为提升计算效率的主要瓶颈。
忆阻器(Memristor)作为一种新型的存储器件,不仅能够存储数据,还能直接在存储单元内执行计算。这种基于忆阻器的神经形态计算(Neuromorphic Computing)为非冯·诺依曼计算架构提供了一种潜在的解决方案。然而,完全基于忆阻器的硬件CNN实现仍存在挑战,包括: 1. 忆阻器阵列的低良率和非理想特性(如导电性漂移、不均匀性); 2. 与软件模型相当的识别精度难以实现; 3. 卷积操作需要对不同输入片段滑动计算,计算速度匹配问题显著。
针对上述问题,该研究通过开发高性能、高一致性的忆阻器阵列,以及混合训练方法,实现了完全基于忆阻器硬件的五层CNN,用于手写数字(MNIST数据集)图像识别,且达到了96.19%的高识别精度。
研究团队设计并制备了8个2048单元的忆阻器阵列,每个单元采用“一晶体管-一忆阻器”(1T1R)的结构。忆阻器材料堆叠为TiN/TaOx/HfOx/TiN,具备连续的电导调节能力,支持模拟式切换。此外,其制造工艺与传统CMOS兼容,便于大规模集成。
整个系统由定制的电路板(PCB)和现场可编程门阵列(FPGA)组成,每个忆阻器阵列连接到独立的处理单元(PE),形成具有高并行计算能力的硬件架构。测试表明,这些阵列在统一的编程条件下具有高度可重复的多级电导状态,为后续的神经网络权重映射提供了可靠基础。
传统的训练方法难以克服忆阻器的不理想特性,因此研究团队提出了一种混合训练方法,包括: - 第一阶段:离线训练(Ex-situ Training)
在软件中对CNN模型进行训练,获得高精度的模型权重; - 第二阶段:在线调整(In-situ Training)
将离线训练的权重映射到忆阻器硬件后,仅对最后一层全连接(Fully Connected, FC)权重进行在线微调,以补偿硬件特性的偏差。
在硬件上实现的五层CNN包括两个卷积层、两个池化层和一个全连接层,输入为28×28像素的灰度图像。权重通过忆阻器的电导差值编码,每个卷积核的权重映射到忆阻器阵列的两行电导。
研究进一步提出了多核平行卷积技术,通过将同一卷积核的权重复制到多个忆阻器阵列中,并行处理不同的输入,极大地提升了CNN的计算效率。
在MNIST数据集上,该五层CNN的离线训练精度为97.99%,权重映射后精度略微下降至95.07%。通过混合训练,精度恢复至96.19%。
与当前最先进的GPU(如Tesla V100)相比,忆阻器CNN在能效方面高出两个数量级(11014 GOPs/W),性能密度高出一个数量级(1164 GOPs/mm²)。
团队还测试了更大规模的ResNet-56模型,结合平行卷积和混合训练,在CIFAR-10数据集上实现了92%的精度,且仅使用了3%的训练数据进行在线调优。
本研究首次在硬件上完整实现了五层忆阻器CNN,解决了传统实现中良率低、非理想特性显著的问题,为忆阻器在更复杂DNN中的应用奠定了基础。
提出的混合训练方法有效结合了离线训练的高精度和在线训练的适应性,不仅适用于忆阻器CNN,也为其他神经网络硬件系统提供了通用解决方案。
通过多阵列并行操作解决了卷积层与全连接层计算速度不匹配的问题,大幅提升了系统吞吐量。
研究展示了忆阻器在能效和性能密度方面的巨大潜力,为非冯·诺依曼架构在边缘计算中的应用提供了重要参考。
虽然本文展示的忆阻器CNN在硬件实现和效率提升上取得了显著成果,但仍存在以下挑战: 1. 忆阻器的多级电导稳定性和可靠性有待进一步提高; 2. 权重量化精度的限制需要更先进的硬件资源支持; 3. 系统的外围电路(如ADC模块)的优化潜力尚未完全挖掘。
未来,随着忆阻器材料和制造工艺的进一步发展,结合更高效的硬件设计和训练策略,忆阻器CNN有望在人工智能硬件领域发挥更重要的作用。