利用优化的一维卷积神经网络(1D-CNN)模型结合近红外光谱技术,能够准确预测猕猴桃的可溶性固形物含量

《International Journal of Food Properties》:Accurate prediction of kiwifruit soluble solids content using an optimized 1D-CNN model with near-infrared spectroscopy

【字体: 时间:2025年11月12日 来源:International Journal of Food Properties 3.9

编辑推荐:

  可溶性固形物(SSC)是猕猴桃品质的关键指标,本研究提出了一种基于近红外光谱(NIR)和优化1D-CNN的非破坏性检测方法。通过SNV预处理消除光谱噪声和基线漂移,结合CARS算法筛选特征波段,最终1D-CNN模型在测试集上获得R2=0.9259、RPD=3.6735,显著优于传统SVR和PLSR模型。该方法实现了高效、精准的SSC预测,为果实分选和质量控制提供了技术支撑。

  在现代食品工业中,对水果质量的快速、准确、无损检测技术正变得越来越重要。随着消费者对即食猕猴桃品质要求的不断提高,尤其是对可溶性固形物(SSC)含量的关注,这种指标直接决定了猕猴桃的风味和内部质量,因此在分类和供应链管理阶段,对猕猴桃SSC的无损评估显得尤为关键。传统方法通常需要破坏性操作,且耗时较长,难以满足工业化需求。与此同时,深度学习(Deep Learning, DL)技术因其强大的数据处理能力,逐渐被应用于食品质量检测领域。然而,其在猕猴桃SSC无损预测方面的应用仍处于初步阶段。本研究以“翠香”猕猴桃为对象,通过采集其近红外(NIR)光谱数据,提出了一种一维卷积神经网络(1D-CNN)模型,并与四种传统机器学习模型(包括SVR-RBF、SVR-Linear、SVR-Poly和PLSR)进行了性能对比。此外,还评估了多种光谱预处理和特征选择方法(如SNV-CARS5)对模型精度的优化效果。研究结果表明,1D-CNN模型在预测能力上表现出色,在原始光谱数据下,其预测相关系数(R2)和预测比值(RPD)分别为0.8034和2.3973,远优于传统模型。经过数据处理和特征选择优化后,模型性能达到最佳,R2和RPD分别提升至0.9387和3.9256。本研究为猕猴桃糖分的无损、准确和智能化预测提供了可靠的理论基础和技术支持。

猕猴桃作为一种营养丰富且口感独特的水果,近年来在全球范围内受到广泛欢迎。它的SSC是衡量其内部品质的重要指标,直接影响消费者的购买决策。SSC与水果的风味和口感密切相关,同时也在决定采摘和储存时间方面发挥着关键作用。传统的SSC测量方法包括比色法、酶法、高效液相色谱(HPLC)和折射仪等,但这些方法往往需要破坏样本、耗时较长,并且对样本的异质性和操作条件敏感。这些缺点限制了其在大规模工业应用中的实用性,使得实时质量控制变得低效甚至不可行。因此,开发一种准确、快速且无损的猕猴桃SSC预测工具,如近红外光谱技术,对于提高猕猴桃的分选效率和质量控制至关重要。

近红外光谱技术因其非破坏性和高效性,成为评估水果内部质量属性(如干物质含量和可溶性固形物含量)的有力工具。例如,Moghimi等人利用可见光和近红外光谱(Vis/NIR)获取猕猴桃的透射光谱,并分析了不同预处理方法和光谱处理技术对光谱数据的影响。他们采用主成分分析(PCA)进行特征提取,以降低光谱数据的维度,并使用偏最小二乘回归(PLSR)作为线性回归模型来预测猕猴桃的内部成分。此外,监督分类方法如线性判别分析(LDA)和软独立建模类比(SIMCA)也被应用于基于光谱数据的水果分类。同时,Ciccoritti等人开发了PLS模型,用于预测水果的组成,并验证了傅里叶变换近红外光谱(FT-NIRs)在采摘和储存过程中提升质量控制的有效性。这些线性方法虽然被广泛使用并建立了基础方法论,但它们依赖于人工特征选择,往往难以直接处理复杂的高维光谱数据,且在面对未知样本时泛化能力有限。

为了克服这些局限性,非线性方法,即机器学习技术,近年来被越来越多地应用于水果质量检测领域。例如,Guo等人使用近红外超光谱成像技术来测定猕猴桃的SSC,并建立了PLSR和最小二乘支持向量机(LSSVM)两种预测模型。他们的研究结果表明,非线性的LSSVM模型在预测能力上优于线性的PLSR模型,突显了非线性方法在捕捉光谱数据与SSC之间复杂关系的优势。此外,Tian等人通过使用一批水果进行校准,另一批来自不同来源的水果进行性能测试,结合校准更新和斜率/偏移校正(SBC)方法,提高了模型的稳健性,并有效应对了生物变异性对预测新样本的影响。上述方法主要依赖于传统的机器学习模型,如PCA、PLSR和SVM,这些模型通常需要人工特征提取和选择,且在处理复杂、高维的光谱数据时表现有限。

近年来,深度学习技术因其自动特征提取、优秀的模式识别能力和对高维数据的处理优势,被广泛应用于图像识别和自然语言处理等领域。在深度学习领域,卷积神经网络(CNNs)因其独特的结构优势,成为一种特别强大的工具。与传统机器学习模型不同,CNNs能够直接从原始数据中自动学习分层特征,无需人工特征工程。对于一维光谱数据,这意味着网络可以自主识别特征峰、基线漂移和复杂的组合波段,这些对定量分析至关重要,可能揭示出人类专家难以察觉的模式。其分层结构设计使得网络能够高效地从输入数据中提取复杂特征,从而捕捉从简单到复杂的多层次特征表示。

目前,许多研究人员已使用CNN预测新鲜水果的内部成分。例如,Yu等人结合可见光和近红外光谱技术与深度特征融合,提出了一种用于无损检测柑橘表面农药残留的一维卷积神经网络(1D-CNN)。他们的实验表明,该模型的性能优于传统的PLSR方法。Wang等人提出了一种用于预测西瓜SSC的1D-CNN模型,结果显示,1D-CNN提取的特征与光谱峰值高度一致,而PLSR提取的特征则较为模糊。同年,Qi等人采集了冠梨的可见光和近红外光谱数据,使用多层感知机(MLP)进行数据降维,并将低维数据输入1D-CNN以提取光谱特征,最终构建了一个时间卷积神经网络(TCN)模型来预测梨的SSC。MLP-CNN-TCN模型在预测性能上优于传统方法。2024年,Zeng等人也使用PLSR和CNN回归技术,基于完整苹果的光谱信息预测其SSC。这些研究强调了CNN在光谱建模中的优势,特别是其自动提取特征和捕捉非线性关系的能力。这些优势对于猕猴桃的NIR光谱尤为重要,因为猕猴桃的光谱数据具有高维性和强共线性。相比之下,传统方法如PLSR需要繁琐的预处理和人工特征工程,难以有效处理这些复杂数据。1D-CNN的结构,以其局部滤波器和分层学习能力,非常适合直接从光谱数据中学习判别性特征,从而提供更稳健和通用的解决方案。

尽管CNN在水果质量检测中展现出良好的应用前景,但目前在利用CNN技术预测猕猴桃内部SSC方面仍存在重要的研究空白。首先,大多数现有的研究在预测水果SSC时使用了通用的CNN架构,而没有根据猕猴桃光谱数据的特性进行定制化设计或调整超参数。其次,较少有研究将先进的预处理方法与特征选择相结合,以进一步提高模型的精度和可解释性。最后,据我们所知,目前还没有一个全面的框架能够将优化的光谱校正、智能波长选择和深度学习技术完整整合,用于猕猴桃SSC预测。为了解决这些研究空白,本研究开发了一种优化的1D-CNN模型,该模型将光谱预处理和特征选择统一起来,用于猕猴桃SSC预测。总体而言,本研究聚焦于以下目标:

• 基于近红外光谱信号,开发一种高效的无损预测猕猴桃SSC的模型;

• 设计一个深度卷积神经网络,并系统地与传统模型进行比较,以探索其在处理复杂猕猴桃光谱数据方面的优越性;

• 通过多种预处理和特征选择策略提高模型的泛化能力和稳定性,并系统分析和评估不同光谱特征选择方法对模型性能的影响。

为了清晰展示研究流程,图1展示了本研究的整体过程。该研究开发了一种基于深度学习的模型,用于利用NIR光谱准确预测猕猴桃的SSC。整个工作流程包括三个主要步骤:数据采集、模型训练和回归分析。通过采集260个“翠香”猕猴桃样本的NIR光谱数据,并使用数字折射仪(PAL – BX/ACID8型号,由ATAGO公司制造)测量每个猕猴桃的SSC,数据被划分为校准集和测试集,比例为8:2,分别包含208个和52个样本。校准集的SSC范围为5.1至15.5 Brix,平均值为10.4 Brix,标准差为2.2 Brix;测试集的SSC范围为5.0至14.1 Brix,平均值为10 Brix,标准差为2.5 Brix。这些结果表明,两个子集都表现出相似的变异性,并且代表了整体SSC分布。详细的统计数据见表2。

为了进一步验证模型的性能,本研究采用了多种预处理方法和特征选择策略。首先,对260个猕猴桃的SSC值进行了Pau Ta标准检测,以识别潜在的异常值。该方法通过检测样本是否超出均值±3倍标准差的范围来识别异常值。在我们的数据集中,所有样本都落在该范围内,表明数据集中没有显著的异常值。为了减少噪声和光谱倾斜,研究使用了五种常用的光谱预处理方法,包括一阶导数(FD)、二阶导数(SD)、Savitzky-Golay多项式平滑(SG)、多变量散射校正(MSC)和标准正态变量变换(SNV)。这些预处理方法旨在通过抑制非化学变化(如噪声、基线漂移和散射)来增强与糖分子(如O–H和C–H振动)相关的光谱特征。这些伪特征可能会掩盖与SSC相关的细微光谱信号,从而降低模型的准确性。预处理可以减轻这些影响,使模型能够学习更可靠的光谱与SSC之间的相关性。

为了评估每种方法在本研究中的有效性,我们使用每种预处理后的光谱数据训练1D-CNN模型。结果显示,未进行预处理的原始光谱数据下,模型的R2值为0.8034,RMSEP为0.9172,RPD为2.3973,表明其具有一定的粗略定量能力。导数预处理方法(FD和SD)分别达到了0.9118的R2值、3.3672的RPD值和0.9082的R2值、3.2997的RPD值,显示了其在噪声消除和保留光谱特征方面的平衡。SG平滑(使用二次多项式和7点窗口)实现了0.9085的R2值和3.3058的RPD值,稍有提升但仍然有限。MSC(通过简单线性散射条件下的处理)在本研究中表现出中等改善,其R2值为0.9145,RPD值为3.3673。而SNV预处理(通过消除散射和基线漂移)在本研究中表现最佳,其R2值达到0.9259,RMSEP为0.6633,RPD值为3.6735。因此,我们选择SNV作为数据预处理方法。随后,所有实验均基于SNV预处理方法进行。图4展示了猕猴桃样本在SNV预处理前后的光谱曲线。

为了进一步验证模型的性能,我们还对不同预处理方法下的模型进行了比较。如表4所示,SNV预处理下的1D-CNN模型表现出最优的预测性能。通过结合光谱预处理、特征提取和数据降维技术,模型的预测能力得到了显著提升。这表明,尽管1D-CNN模型在原始光谱数据下具有一定的预测能力,但适当的预处理方法可以显著增强其性能,使其更稳健、更准确。

在模型训练和评估过程中,我们采用了多种评价指标。R2值用于衡量模型对数据的拟合程度,其值越接近1,模型的拟合能力越强。RMSE值用于评估模型预测误差,其值越低,模型的预测能力越强。RPD值则用于衡量模型对未知样本的预测能力,其值越大,模型的预测能力越强。根据这些指标,我们可以评估模型在不同预处理方法下的表现。在本研究中,我们发现,1D-CNN模型在SNV预处理下表现出最佳的预测性能,其R2值达到0.9259,RPD值达到3.6735,而其他预处理方法的性能相对较低。这表明,SNV预处理在消除散射和基线漂移方面具有显著优势,从而提高了模型的预测能力。

此外,为了进一步提高模型的性能和泛化能力,我们引入了波长选择技术,以识别与目标变量(SSC)最相关的波长范围。通过使用竞争自适应重加权采样(CARS)和逐步投影算法(SPA)进行波长选择,并结合主成分分析(PCA)进行数据降维,我们能够更有效地提取特征波长,从而优化模型输入。在本研究中,经过多次迭代后,CARS算法选择了188个特征波长,而SPA进一步精简至160个波长。PCA分析在CARS和CARS-SPA选择的特征波长上分别产生了135和120个新的光谱特征。这些特征的提取和选择显著提高了模型的预测性能,使得模型在训练集和测试集上的表现趋于一致,进一步验证了特征选择方法的有效性。

在实验结果部分,我们通过比较不同模型在原始光谱数据和经过预处理后的数据上的表现,进一步验证了1D-CNN模型的优越性。如表5所示,1D-CNN模型在预测猕猴桃SSC方面表现出显著的优越性,其R2值达到0.9259,RPD值达到3.6735,远优于其他传统模型。这表明,1D-CNN模型在处理猕猴桃光谱数据时具有更强的泛化能力,能够有效捕捉复杂、非线性的光谱与SSC之间的关系。此外,我们在测试集中发现,1D-CNN模型在训练集和测试集上的R2值分别为0.9768和0.9259,差异较小,表明其在不同数据集上的表现较为稳定。相比之下,PLSR模型在训练集和测试集上的R2值差异较大,显示出较强的过拟合倾向。这进一步验证了1D-CNN模型自动学习的特征具有更强的稳健性和泛化能力。

在模型的优化过程中,我们还探讨了不同的特征选择方法对模型性能的影响。通过比较不同预处理方法下的模型表现,我们发现SNV-CARS5方法在预测性能和稳定性方面具有显著优势。SNV有效地校正了散射效应,而CARS则选择了与目标变量相关的特征波长,从而提高了模型的鲁棒性。此外,我们还比较了其他深度学习模型在预测其他水果SSC方面的表现,发现1D-CNN(梨)模型表现最佳,而1D-CNN(苹果)模型则表现最差。这表明,为特定水果类型定制模型架构具有重要优势,能够显著提升模型的泛化能力和预测能力。

在实际应用中,模型的预测性能可能会受到环境和生物因素的影响。例如,光谱采集过程中,传感器加热或环境变化可能导致基线或散射特性的波动,从而影响预测准确性。因此,集成温度监测和补偿机制可能是提高模型稳定性的一种有效方法。此外,猕猴桃的光谱特性受成熟阶段、采摘时间、储存条件和季节性生长环境的影响,这些因素可能会导致模型泛化能力的下降。为了提高模型的稳健性,可以通过扩大数据集,涵盖更多生物变异性,并应用高级校准转移或领域适应方法,以增强模型在不同生产场景下的适用性。

从经济可行性角度来看,本研究提出的系统虽然在实施过程中需要一定的初始投资,如设备采购、数据采集和模型开发,但这些投资可以被长期收益所抵消。该系统能够实现快速、无损分析,保护水果完整性,减少浪费,非常适合高通量筛选。与传统的破坏性方法如折射仪相比,该方法大大减少了分析时间和人工成本,适用于工业应用中的分选、出口检验和成熟度监测。未来的研究应包括定量的成本效益分析,以评估投资回报率并指导大规模应用。此外,我们的团队还计划进一步探索轻量级模型的设计,以适应嵌入式或手持设备的应用场景。同时,可以结合多模态融合技术和领域适应策略,进一步提升模型的稳健性和适用性。

本研究的结论表明,结合近红外光谱技术和深度学习模型,可以有效地预测“翠香”猕猴桃的SSC。在五种预测模型和多种数据处理策略中,优化后的1D-CNN模型,特别是与SNV预处理和CARS波长选择相结合的模型,表现出明显的优势。这些发现突显了模型在捕捉复杂非线性光谱模式和自动提取有用特征方面的强大能力,从而减少了对人工特征工程和领域知识的依赖。尽管研究结果令人鼓舞,但在工业应用之前,仍存在一些实际挑战。例如,随着传感器老化或光源变化,光谱准确性可能会下降,这可以通过定期校准和使用参考标准来缓解。此外,样本定位和处理的差异可能会影响预测的一致性,因此需要制定标准化的测量协议或使用自动化样本夹具。环境因素如温度、湿度和光照,以及有限的数据集规模,都可能限制模型的鲁棒性。这些问题可以通过在不同条件下扩展数据集,并应用先进的校准转移或领域适应方法来解决。

展望未来,研究团队计划进一步扩展数据集,涵盖不同猕猴桃品种和成熟阶段,以验证模型在不同环境和采集设置下的表现。同时,将探索更轻量级的模型设计,以适应嵌入式或手持设备的应用场景。此外,结合多模态融合技术和领域适应策略,将有助于进一步提升模型的鲁棒性和适用性。通过这些努力,我们可以期望实现更高效、更精确的猕猴桃SSC预测系统,为食品工业的无损检测提供强有力的技术支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号