本文档属于类型a,即报告了一项单一原创研究的学术论文。以下是根据要求生成的学术报告:
本研究由Xin Zou、Qiaoyun Wang、Yinji Chen、Jilong Wang、Shunyuan Xu、Ziheng Zhu、Chongyue Yan、Peng Shan、Shuyu Wang和Yongqing Fu共同完成。Xin Zou和Qiaoyun Wang为共同第一作者,Qiaoyun Wang为通讯作者。研究团队主要来自中国东北大学信息科学与工程学院(College of Information Science and Engineering, Northeastern University),部分成员来自河北微纳精密光学传感与测量技术重点实验室(Hebei Key Laboratory of Micro-Nano Precision Optical Sensing and Measurement Technology)以及英国诺森比亚大学工程与环境学院(Faculty of Engineering & Environment, Northumbria University)。该研究发表于《Food Chemistry》期刊,发表日期为2025年8月31日,卷号为463,文章编号为141053。
本研究的主要科学领域为近红外光谱分析(Near-Infrared Spectroscopy, NIR)与深度学习(Deep Learning)的结合应用。近红外光谱技术因其高灵敏度、快速、非破坏性等优势,被广泛应用于农业领域,尤其是玉米(corn)多成分的定量分析。然而,由于近红外光谱的宽吸收带、重叠性和非特异性,直接从光谱中提取成分信息具有挑战性。为解决这一问题,本研究提出了一种基于极端梯度提升(XGBoost)特征提取与一维浅层卷积神经网络(Convolutional Neural Network, CNN)相结合的方法,旨在从原始光谱数据中提取隐含特征,提高定量模型的性能。
研究的主要目标是开发一种高效的特征提取方法,并结合改进的CNN模型,提升玉米多成分(如水分、油、蛋白质和淀粉)的定量分析精度。此外,研究还引入了双参数Swish(Two-Parametric Swish, TSwish或TS)激活函数和弹性网络(Elastic Net, EN)正则化技术,以增强模型的表达能力和泛化能力,避免过拟合问题。
研究流程主要包括以下几个步骤:
数据集准备
研究使用了两个公开的近红外光谱数据集:玉米数据集和土壤数据集。玉米数据集包含80个样本,光谱波长范围为1100 nm至2498 nm,每个光谱包含700个数据点。数据集被随机划分为训练集(60个样本)和测试集(20个样本)。土壤数据集包含108个样本,波长范围与玉米数据集相同,主要分析土壤有机质(Soil Organic Matter, SOM),同样被随机划分为训练集(81个样本)和测试集(27个样本)。
数据预处理
为提高模型的预测性能,研究对光谱数据进行了预处理,包括基线校正(Baseline Correction, BC)、Savitzky-Golay平滑滤波(Savitzky-Golay Smoothing Filtering, SG)和直接正交信号校正(Direct Orthogonal Signal Correction, DOSC)。这些方法用于消除光谱中的噪声、基线漂移和冗余信息。
XGBoost特征提取
研究提出了一种基于XGBoost的特征提取方法。通过编码和重构XGBoost中的叶节点特征信息,提取出光谱数据中的隐含特征。具体而言,XGBoost模型生成多个决策树,每个决策树的叶节点通过独热编码(One-Hot Encoding)转换为新的特征集,最终合并所有决策树的特征集作为CNN模型的输入。
CNN模型构建与优化
研究提出了一种一维浅层CNN模型,包含输入层、两个卷积层、两个池化层、一个展平层、一个全连接层和一个输出层。为了增强模型的表达能力,研究引入了双参数Swish(TSwish)激活函数,并通过弹性网络(Elastic Net)正则化技术避免过拟合。模型采用五折交叉验证进行训练和评估,使用Adam优化器和均方误差(Mean Squared Error, MSE)损失函数进行优化。
模型性能评估
研究使用多种指标评估模型性能,包括决定系数(R²)、交叉验证均方根误差(Root Mean Square Error of Cross-Validation, RMSECV)、预测均方根误差(Root Mean Square Error of Prediction, RMSEP)、残差预测偏差(Residual Predictive Deviation, RPD)、预测标准误差(Standard Error of Prediction, SEP)和范围误差比(Range Error Ratio, RER)。研究还对比了其他特征提取方法(如PCA和ICA)和回归模型(如SVM、AdaBoost和RF)的性能。
正则化方法的选择
研究比较了L1、L2和弹性网络(EN)正则化方法对CNN模型性能的影响。实验结果表明,弹性网络正则化在提升模型预测精度方面表现最佳,尤其是在水分、油、蛋白质和淀粉的预测中,R²值分别达到0.961、0.919、0.941和0.950。
激活函数的影响
研究比较了ReLU、PReLU、Swish和TSwish激活函数对CNN-EN模型性能的影响。实验结果表明,TSwish激活函数在提升模型表达能力和拟合能力方面表现最优,R²值分别达到0.982、0.975、0.978和0.967。
XGBoost-CNN-TS-EN模型的性能
研究提出的XGBoost-CNN-TS-EN模型在玉米和土壤数据集上均表现出优异的预测性能。在玉米数据集中,水分、油、蛋白质和淀粉的R²值分别为0.993、0.991、0.998和0.992;在土壤数据集中,土壤有机质的R²值为0.992。与其他模型相比,XGBoost-CNN-TS-EN模型在RMSECV和RMSEP方面均表现出更小的误差,且RPD和RER值更高,表明其具有更强的预测能力和泛化能力。
本研究提出的XGBoost-CNN-TS-EN模型在近红外光谱分析中表现出优异的稳定性、预测精度和泛化能力,为玉米多成分的定量分析提供了一种高效的方法。该模型的创新之处在于结合了XGBoost特征提取、TSwish激活函数和弹性网络正则化技术,显著提升了浅层CNN模型的性能。此外,该模型在土壤有机质的预测中也表现出良好的适用性,展示了其在光谱分析中的广泛应用潜力。
研究还对比了不同设备(M5、MP5和MP6)对模型性能的影响,结果表明该模型在不同设备上均表现出稳定的预测性能。此外,研究还提供了详细的超参数设置和模型训练流程,为其他研究者提供了可复现的实验方案。