本文题为“Identification of Informative Spectral Ranges for Predicting Major Chemical Constituents in Corn Using NIR Spectroscopy”,于2022年2月12日在期刊《Food Chemistry》上在线发布。本文由Ali Fatemi、Vijay Singh和Mohammed Kamruzzaman来自美国伊利诺伊大学香槟分校农业和生物工程系的研究团队撰写。本文主要探讨利用近红外光谱(NIR spectroscopy)来预测玉米主要化学成分的光谱信息范围,旨在提高数据的可解释性和预测准确度。
玉米是全球产量最大的重要谷物之一,2020/2021年度的全球总产量达到了1116.34百万吨。玉米广泛应用于人类食物、动物饲料以及工业产品制作,如玉米淀粉、谷类食品、黏合剂、甜味剂、酒精和生物油等。在这些应用中,玉米中的主要成分如水分、油、蛋白质和淀粉的含量对其价值有着重要影响。因此,能够快速、可靠且精确地预测这些成分是非常有必要的。
在这里,近红外光谱因其快速性、非破坏性和非侵入性,在不同食物和农产品成分预测中发挥了重要作用。然而,由于近红外光谱区域复杂的过渡和组合频带现象其光谱数据的解释性受到了限制。此外,用于分析玉米光谱的光谱子区域在过渡和组合频带范围内的系统性研究尚未完全开展。
本研究的主要目标是利用有限变量选择技术识别和选择玉米光谱的主要信息范围,进而改善玉米主要成分预测模型的表现。具体目标包括:(a)在全光谱和过渡以及组合区域中对部分最小二乘法模型进行比较;(b)顺序探讨过渡和组合区域以识别信息子区域;©比较结果并选择最佳光谱子集;(d)使用已选择的波段开发多元线性回归模型。
研究使用了公开可获得的NIR玉米数据集,这包含在三个不同仪器上测量的80个玉米样本的光谱数据,光谱范围从1100 nm到2498 nm,其中以2 nm为间隔。研究利用了Matlab软件以及多个统计分析工具进行数据分析与建模。其通过将NIR光谱分为第二过渡区域(1100–1388 nm)、第一过渡区域(1390–1852 nm)和组合区域(1852–2498 nm)来探讨每个成分最具信息量的子区域。在光谱区间中,通过利用“重要性投影中的变量”和遗传算法来选择最具影响力的波段。
实验结果表明,组合区域在预测水分(1908–2108 nm)、油(2176–2304 nm)和蛋白质(2130–2190 nm)方面最具信息量,而第一过渡区域则最适合于预测淀粉的含量(1452–1770 nm)。这些子区中的信息量可与全光谱模型竞争,且具有更高的可解释性。
在预测成分时,这些选择的波段和子区域的分析也表明,与全光谱数据相比,预测性能有所提高,同时减少了变量冗余。此外,多元线性回归中的选定波长有助于进一步优化成分预测模型的表现。
本研究通过识别NIR光谱中具有潜在预测能力的子区域,提出了一种有效的方法,以降低硬件和计算成本,助力设备的小型化、轻便化和专门化设计。同时,该方法可应用于其他光谱数据的分析,以提升分析的精确性和效率。
总体而言,该研究为玉米化学成分的光谱预测提供了新的见解和方法,为在食品化学以及相关工业及科研应用中的预测分析提供了重要支持。研究还表明,通过削减不必要的变量,有可能显著提升模型的精确性和简化度。