分享自:

使用梯度提升机优化特征选择在PLS回归中预测多国玉米籽粒的湿度和蛋白质含量

期刊:food chemistryDOI:10.1016/j.foodchem.2024.140062

本研究由Runyu Zheng、Yuyao Jia、Chidanand Ullagaddi、Cody Allen、Kent Rausch、Vijay Singh、James C. Schnable和Mohammed Kamruzzaman等人共同完成,他们分别来自美国伊利诺伊大学厄巴纳-香槟分校农业与生物工程系和内布拉斯加大学林肯分校农学与园艺系。该研究于2024年6月10日发表在《Food Chemistry》期刊上,题为《Optimizing Feature Selection with Gradient Boosting Machines in PLS Regression for Predicting Moisture and Protein in Multi-Country Corn Kernels via NIR Spectroscopy》。

学术背景
玉米是全球重要的粮食作物,广泛用于人类食品、牲畜饲料和生物燃料生产。2022/23年度全球玉米产量估计为11.57亿吨,预计2023/24年度将进一步增加。玉米的物理和化学特性因遗传、环境和管理因素的不同而有所差异,尤其是水分和蛋白质含量的变化直接影响其营养价值和加工效率。因此,快速、准确且无损地测定玉米籽粒中的水分和蛋白质含量对工业利益相关者具有重要意义。传统的水分和蛋白质测定方法(如烘箱干燥法、凯氏定氮法等)虽然准确,但耗时、耗能且具有破坏性。近红外光谱(NIR)技术提供了一种快速、可靠且无损的检测方法,能够同时测定水分和蛋白质含量。然而,NIR光谱的复杂性对数据解释提出了挑战,因此需要有效的特征选择方法来提高模型性能。

研究流程
1. 样本收集与化学组成分析
研究收集了来自七个国家(阿根廷、巴西、印度、印度尼西亚、塞尔维亚、突尼斯和美国)的120袋玉米籽粒样本。样本在4°C下密封保存,随后使用NIR光谱仪进行扫描,并在伊利诺伊大学的光学传感与纳米酶工程实验室(IOSNEL)测定参考水分和蛋白质含量。水分含量使用CEM公司的Smart 6水分分析仪测定,蛋白质含量使用基于“iTAG”蛋白降解技术的Sprint快速分析仪测定。

  1. NIR光谱获取
    使用Bruker公司的Tango FT-NIR光谱仪采集玉米样本的NIR光谱,光谱范围为867至2535 nm,共949个波长。每个样本进行32次扫描,平均光谱数据存储在MATLAB中用于后续分析。

  2. 多变量数据分析

    • 参考成分统计与基本光谱分析:计算每个国家样本的水分和蛋白质含量的描述性统计量,并分析原始光谱和平均光谱。通过主成分分析(PCA)展示样本光谱的变异情况。
    • 数据分区:使用Kennard-Stone算法将样本数据分为校准集(80个样本)和验证集(40个样本),确保校准集覆盖了水分和蛋白质的整个范围。
    • 异常值检测:通过X空间距离(DMX)和Y值残差检测异常值,并在校准集中剔除。
    • PLSR模型开发与性能评估:使用LibPLS MATLAB库开发PLSR模型,通过内部留一法交叉验证确定最佳潜变量(LV)数量,并在验证集上评估模型性能。
  3. 特征波长提取与PLSR模型优化
    研究评估了五种特征选择方法:PLSR回归系数(RC)、竞争性自适应重加权采样(CARS)以及三种梯度提升机(GBM)算法(XGBoost、LightGBM和CatBoost)。通过后向消除法优化所选波长,最终确定最佳波长子集。

  4. 重要波长的解释
    使用SHAP(Shapley Additive Explanations)值解释所选波长对模型预测的贡献,展示每个波长对水分和蛋白质预测的影响。

主要结果
1. 参考成分统计与光谱分析
不同国家的玉米样本在水分和蛋白质含量上存在显著差异。NIR光谱显示,水分的主要吸收峰位于1450和1940 nm,蛋白质的特征吸收峰位于2050和2180 nm。

  1. PLSR模型性能
    在全波长下,水分PLSR模型在校准和验证中表现出色(R² ≥ 0.97,RMSE ≤ 0.45%),蛋白质模型的性能稍逊(R² ≥ 0.79,RMSE ≤ 0.55%)。特征选择方法中,RC方法在减少变量和潜变量数量的同时保持了模型性能,CARS方法在校准和内部交叉验证中表现良好,GBM算法(尤其是CatBoost和LightGBM)在验证集上表现优异。

  2. 特征波长选择与解释
    CatBoost选择的波长(1409、1900、1908、1932、1953和2174 nm)在水分预测中表现最佳,LightGBM选择的波长(887、1212、1705、1891、2097和2456 nm)提高了蛋白质模型的预测性能。SHAP值分析显示,2174 nm和1891 nm分别在水分和蛋白质预测中起关键作用。

结论
本研究成功开发了基于NIR光谱的PLSR模型,用于测定来自不同国家的玉米籽粒中的水分和蛋白质含量。通过优化特征选择方法,研究展示了GBM算法在NIR光谱特征工程中的潜力,为农业和食品行业的多国全球校准模型开发提供了重要参考。未来的研究方向包括收集更多国家的玉米样本,进一步提高模型精度,并结合其他机器学习方法进行更深入的数据解释。

研究亮点
1. 首次将GBM算法应用于NIR光谱特征选择,显著提高了模型预测性能。
2. 研究覆盖了来自七个国家的玉米样本,确保了模型的广泛适用性。
3. 通过SHAP值解释波长贡献,为NIR光谱数据的解释提供了新视角。

其他有价值的内容
研究还探讨了NIR光谱在农业和食品行业中的应用前景,强调了定期更新校准模型的必要性,以确保其在不同环境条件下的稳定性和可靠性。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com