本研究由Tingze Long、Han Yi、Yatong Kang、Ying Qiao、Ying Guan和Chao Chen等人合作完成,主要来自广东药科大学中医药学院和药学院。研究发表于《Infrared Physics & Technology》期刊,于2024年10月18日在线发布。研究领域为近红外光谱学(Near-Infrared Spectroscopy, NIRS)和仿生群智能优化算法(Bionics-based Swarm Intelligence Optimization Algorithms, BSIOAs)。研究的背景在于,近红外光谱分析技术在食品、工业、农业、畜牧业和药学等领域广泛应用,但其光谱信息复杂且存在重叠,因此波长选择是建模过程中至关重要的一步,能够显著降低模型复杂度并提高模型性能。传统波长选择方法在复杂和大规模问题中表现出搜索效率低、易陷入局部最优等局限性,而仿生群智能优化算法通过模拟自然界生物群体的行为,展现出更强的全局搜索能力和鲁棒性。本研究旨在探讨十种仿生群智能优化算法在近红外光谱波长选择中的应用效果,并与经典方法进行比较,以验证其在模型简化和性能提升方面的优势。
研究首先选取了三个近红外光谱基准数据集,包括药片、啤酒和玉米数据集。药片数据集包含310个样本,啤酒数据集包含60个样本,玉米数据集包含80个样本。每个数据集均按照3:1的比例划分为校准集和预测集,以确保校准集的参考值范围覆盖预测集。光谱预处理采用了平滑(Smoothing)、导数(Derivative)、标准正态变量变换(Standard Normal Variation, SNV)和多元散射校正(Multiplicative Scatter Correction, MSC)等方法,以消除噪声、基线漂移和散射效应的影响。预处理后的光谱数据通过十种仿生群智能优化算法进行波长选择,包括Harris Hawks优化(HHO)、蝴蝶优化算法(BOA)、鲸鱼优化算法(WOA)、帝王蝶优化(MBO)、灰狼优化(GWO)、果蝇优化算法(FOA)、蝙蝠算法(BA)、蚁群优化(ACO)、粒子群优化(PSO)和遗传算法(GA)。这些算法的Python代码来自Jingwei Too提供的Wrapper Feature Selection工具箱,主要参数设置为初始种群规模50,最大迭代次数500,适应度函数定义为预测集的决定系数和波长压缩比的加权和。
研究采用偏最小二乘回归(Partial Least Squares Regression, PLSR)构建定量模型,并通过决定系数(R²)、均方根误差(Root Mean Square Error, RMSE)和残差预测偏差(Residual Predictive Deviation, RPD)等指标评估模型性能。结果表明,仿生群智能优化算法能够显著压缩波长数量(压缩比均大于50%),并提高模型精度。以药片数据集为例,HHO、BOA、WOA、MBO、GWO、FOA、BA、ACO、PSO和GA分别选择了21、21、19、92、18、30、176、18、131和48个波长,压缩比分别为94.80%、94.80%、95.30%、77.23%、95.54%、92.57%、56.44%、95.54%、67.57%和88.12%。这些算法的模型预测精度均优于全光谱模型,其中GA表现最佳,预测集R²为0.977,RMSE为0.196。相比之下,经典波长选择方法如竞争性自适应重加权采样(CARS)、蒙特卡洛无信息变量消除(MCUVE)、变量重要性投影(VIP)、区间偏最小二乘(IPLS)和连续投影算法(SPA)虽然在波长压缩方面表现优异,但在模型精度提升上不如仿生群智能优化算法。
研究的结论是,仿生群智能优化算法在近红外光谱波长选择中具有显著优势,能够有效简化模型结构并提高模型性能。特别是在MBO、GWO、FOA和GA四种算法中,GA表现尤为突出。尽管这些算法需要预设多个参数,且计算时间较长,但其在全局优化和避免局部最优方面的能力使其在近红外光谱建模中具有广泛的应用前景。此外,研究还指出,未来的工作可以结合人工智能和深度学习算法,进一步提升近红外光谱建模的效率和应用范围。
本研究的亮点在于首次系统性地比较了十种仿生群智能优化算法在近红外光谱波长选择中的应用效果,并通过实验验证了其在模型简化和性能提升方面的优势。特别是遗传算法(GA)在全局优化和避免局部最优方面的表现,为近红外光谱建模提供了新的思路。此外,研究还探讨了光谱预处理方法对模型性能的影响,为近红外光谱分析技术的优化提供了重要参考。这些发现不仅具有重要的科学价值,还为食品、药学等领域的实际应用提供了技术支持。