分享自:

SBCFormer:适用于单板计算机的轻量级网络,实现全尺寸ImageNet分类

期刊:2024 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV)DOI:10.1109/WACV57701.2024.00116

本文介绍了一项关于轻量级神经网络的研究,该研究由Xiangyong Lu、Masanori Suganuma和Takayuki Okatani等作者共同完成,他们分别来自日本东北大学信息科学研究科和RIKEN AIP中心。该研究于2024年发表在IEEE/CVF Winter Conference on Applications of Computer Vision (WACV)上,题为《sbcformer: lightweight network capable of full-size imagenet classification at 1 fps on single board computers》。

研究背景

随着计算机视觉技术在智能农业、渔业和畜牧业管理等领域的广泛应用,越来越多的应用场景需要在资源受限的设备上运行深度学习模型。尽管已经有许多轻量级网络被开发用于移动设备,但这些网络主要针对智能手机等具有较强处理能力的设备,而非使用低端CPU的单板计算机(SBC)。单板计算机通常用于嵌入式系统,其计算资源有限,但在许多实际应用中,每秒处理一帧图像的速度已经足够。因此,开发一种能够在低端CPU上高效运行的轻量级网络具有重要意义。

研究目标

本研究的目标是设计一种能够在单板计算机上高效运行的轻量级神经网络,能够在保持较高准确率的同时,实现每秒一帧的处理速度。为此,作者提出了一种名为SBCformer的CNN-ViT(卷积神经网络-视觉Transformer)混合网络,旨在在低端CPU上实现高准确率和快速计算。

研究方法

SBCformer的核心设计思想是通过结合卷积神经网络(CNN)和视觉Transformer(ViT)的优点,来解决低端CPU上的计算瓶颈。具体来说,SBCformer采用了双流块结构,其中一个流通过缩小输入特征图来减少计算量,另一个流则保留局部信息,以确保在减少计算量的同时不丢失图像细节。

  1. 双流块结构:SBCformer的每个块由两个并行流组成。第一个流通过缩小输入特征图来减少计算量,应用注意力机制后再将特征图恢复到原始大小。第二个流则直接传递输入特征图,保留局部信息。两个流的输出最终合并,生成一个包含局部和全局信息的特征图,供下一层使用。

  2. 改进的注意力机制:为了弥补由于特征图缩小而导致的表示能力下降,作者对Transformer的注意力机制进行了改进,引入了标准CNN的计算单元(如3x3深度卷积、GELU激活函数和批量归一化),以增强特征图的表示能力。

实验结果

作者在Raspberry Pi 4 Model B(搭载ARM Cortex-A72 CPU)上对SBCformer进行了实验,结果表明SBCformer在ImageNet-1K分类任务上实现了约80%的Top-1准确率,且处理速度达到每秒1帧。这是首次在单板计算机上实现如此高的准确率和处理速度的平衡。

此外,作者还对比了SBCformer与其他轻量级网络在ARM和Intel CPU上的性能。结果显示,SBCformer在ARM CPU上的表现尤为突出,显著优于其他网络。而在GPU上,SBCformer的表现则相对平庸,这与设计目标一致,因为SBCformer主要针对低端CPU进行了优化。

结论与意义

SBCformer的提出为在低端CPU上运行深度学习模型提供了一种新的解决方案。其双流块结构和改进的注意力机制有效解决了低端CPU上的计算瓶颈问题,能够在保持较高准确率的同时实现快速推理。这一研究成果不仅具有重要的学术价值,还为实际应用中的嵌入式设备提供了新的可能性,特别是在智能农业、渔业和畜牧业管理等资源受限的场景中。

研究亮点

  1. 创新性设计:SBCformer首次在单板计算机上实现了高准确率和快速推理的平衡,填补了低端CPU上轻量级网络的研究空白。
  2. 双流块结构:通过双流块结构,SBCformer在减少计算量的同时保留了图像的局部信息,解决了传统Transformer在低分辨率特征图上丢失细节的问题。
  3. 改进的注意力机制:通过引入CNN的计算单元,SBCformer增强了注意力机制的表示能力,进一步提升了模型的性能。

其他有价值的内容

作者还进行了消融实验,验证了双流块结构和改进的注意力机制对模型性能的提升作用。此外,SBCformer在目标检测任务上也表现出色,进一步证明了其在实际应用中的潜力。

总的来说,SBCformer为在资源受限的设备上运行深度学习模型提供了一种高效且实用的解决方案,具有广泛的应用前景。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com