本文介绍的研究由林东凤、黄汉明和沈俏共同完成,他们分别来自广西师范大学计算机科学与工程学院/软件学院、广西多源信息挖掘与安全重点实验室以及教育区块链与智能技术教育部重点实验室。该研究发表于2024年12月的《计算机工程与设计》期刊第45卷第12期,标题为“基于改进遗传算法的广度架构搜索算法”。
该研究的主要科学领域是神经架构搜索(Neural Architecture Search, NAS),旨在通过自动化方法从搜索空间中寻找最优的神经网络架构。NAS技术通常用于优化神经网络的模块及其连接方式,以减少人工设计的工作量并提高网络性能。然而,传统的NAS方法虽然保证了搜索的稳定性,但往往难以覆盖整个搜索空间,尤其是在搜索空间包含数百万个网络架构的情况下。因此,本研究提出了一种改进的遗传算法,即广度单路径架构搜索算法(Wide Single-Path NAS, WSP-NAS),以扩大搜索范围并提高搜索效率。
该研究分为以下几个主要步骤:
超网络设计
研究首先设计了一个超网络(Supernetwork),用于在搜索过程中继承权重。超网络包含多个模块,如残差模块、金字塔卷积模块和卷积神经单元,每个模块的具体设置如表1所示。超网络的整体架构如表2所示,包含16个阶段,每个阶段重复使用表1中的模块。通过这种设计,超网络能够覆盖搜索空间中的所有子网架构。
均匀训练算法
在超网络的训练阶段,研究采用了一种均匀训练的方法。每次从超网络中随机选取一个子网进行训练,并通过梯度下降算法更新该子网的权重。这种方法确保超网络中的每个模块都能被充分优化,从而在后续的搜索过程中无需重新训练子网的权重,只需微调即可进行评估。
改进的遗传算法
研究提出的WSP-NAS算法将搜索过程分为两个阶段:
停滞检测算法
停滞检测算法用于监控每个个体的适应度值。当某代种群在变异时产生的差个体数量超过设定阈值时,算法会适当调整变异率,以增加搜索的多样性。该算法的主要流程如第2.4节所述。
研究在四个数据集(MNIST、Fashion-MNIST、CIFAR-10和CIFAR-100)上进行了实验,验证了WSP-NAS算法的有效性。实验结果表明,与手工设计的神经网络和基于传统遗传算法的NAS方法相比,WSP-NAS算法搜索出的最优网络在分类准确率上具有竞争力,同时网络的参数量较少。具体实验结果如表4和表5所示。
此外,研究还进行了消融实验,对比了不同交叉算子(单点交叉、均匀交叉和首尾交叉)和停滞检测算法对搜索结果的影响。结果表明,首尾交叉算子和停滞检测算法的结合能够显著提高搜索效率和结果质量。
本研究提出的WSP-NAS算法通过改进遗传算法,扩大了神经架构搜索的范围,并提高了搜索效率。该算法在多个数据集上表现出色,能够在不依赖人工干预的情况下生成高性能的神经网络架构。未来,研究计划通过剪枝算法进一步简化超网络架构,以减少训练和搜索的时间开销。
研究还详细介绍了超网络的设计思路、均匀训练算法的实现细节以及停滞检测算法的具体流程,为后续研究提供了重要的参考。此外,研究通过消融实验验证了不同算法组件的有效性,进一步增强了研究结果的可信度。