半监督宽学习系统在近红外光谱分析中的应用

《Journal of Food Engineering》:Semi-supervised Broad Learning System for Near-infrared Spectroscopy

【字体: 时间:2025年11月30日 来源:Journal of Food Engineering 5.8

编辑推荐:

  近红外光谱(NIRS)结合半监督学习(SS)、最小冗余最大相关(MRMR)特征选择和深度确定性策略梯度(DDPG-BLS)构建的SS-MRMR-DDPG-BLS模型,在 HuangshanMaofeng茶糖分预测中显著优于传统监督学习方法,验证了半监督框架结合特征选择与强化学习调参的有效性。

  
郑涛·西|潘天红|李芳|陈山
安徽大学电气工程与自动化学院,中国合肥230601

摘要

近红外光谱(NIRS)由于其快速、无损且无污染的特性,已成为一种高效的分析技术,并在各个领域得到广泛应用。然而,传统的NIRS数据分析模型通常是监督式的,这在标记数据和未标记数据共存的情况下适用性较差。为了解决这一局限性,本文提出了一种基于自训练的半监督最小冗余最大相关性广学习系统(SS-MRMR-DDPG-BLS),该系统结合了深度确定性策略梯度(DDPG)算法。在该框架中,自训练使得模型能够同时从标记数据和未标记数据中学习;MRMR算法用于识别显著的光谱特征;DDPG算法则优化模型参数。该模型通过NIRS数据预测黄山毛峰茶的糖含量进行了验证。实验结果表明,SS-MRMR-DDPG-BLS在预测准确性和泛化能力方面显著优于传统的机器学习算法。

引言

近红外光谱(NIRS)由于其操作简便和成本低廉等优势,在多个行业中得到了广泛应用(Wang等人,2024;Zhao等人,2024;Deng等人,2025)。然而,NIRS仅能捕获光谱特征,通常需要额外的标记信息来支持进一步分析。标记信息的获取通常耗时、劳动密集且成本高昂,导致标记样本较为稀缺。
半监督学习(SSL)是机器学习的一个分支,它通过利用标记数据和未标记数据来弥合监督学习和无监督学习方法之间的差距(van Engelen和Khalil,2020)。当标记数据稀缺而未标记数据丰富时,SSL特别有用,可以提升学习效果(Said等人,2022;Taghizadeh-Mehrjardi等人,2022)。已经开发了几种SSL策略,包括基于自训练的方法(Ke等人,2022)、基于共训练的方法(Wang等人,2024)、基于生成的方法(Prajapati等人,2025)和基于图的方法(Huang等人,2025)。基于自训练的方法通过为高置信度的未标记样本分配伪标签并迭代扩充标记数据集,提供了一种实用的解决方案。与上述方法相比,基于自训练的方法易于实现、计算效率高且灵活性强,适用于实际应用中的模型性能提升和优化(Li,2024)。鉴于NIRS数据的高维性和非线性特征(以及其中可能存在的噪声和冗余信息,Yu等人,2023),特征选择对于提高模型鲁棒性和准确性至关重要。特征选择技术通过识别有用变量并消除无关变量来降低数据维度,从而提高学习效率(Li等人,2024)。常见的特征选择方法包括基于滤波器的方法、基于包装器的方法和基于嵌入的方法(Liu等人,2023)。其中,最小冗余最大相关性(MRMR)算法是一种广泛采用的滤波方法(Peng等人,2005),它通过最大化目标变量的相关性同时最小化相互冗余来选择合适的特征。MRMR已成功应用于多个领域(Jiang等人,2024;Fan等人,2022),包括基于NIRS的应用(Ma等人,2024),并展现了出色的性能。半监督版本的MRMR(SS-MRMR)结合了特征选择和半监督学习的优势,能够从标记数据和未标记数据中识别出最优特征子集,从而提升模型性能和泛化能力。
在本研究中,结合了基于自训练的半监督学习(SS)框架和SS-MRMR算法,利用标记数据和丰富的未标记数据构建了一个稳健的训练数据集。尽管深度学习方法在多个领域取得了显著成果(Vasafi等人,2021;Yang等人,2024),但由于其复杂的架构,这些方法通常需要大量的计算资源和较长的训练周期。作为轻量级的替代方案,广学习系统(BLS)(Chen等人,2018)提供了一种扁平的网络结构,无需深度堆叠即可保持高学习效率和预测准确性(Chen等人,2019)。此外,超参数的选择直接影响BLS的准确性,因此调整方法至关重要。强化学习(RL)被用于辅助调整过程,以确定最优参数并提升模型性能(Adesanya等人,2024)。在RL方法中,深度确定性策略梯度(DDPG)(Lillicrap等人,2016)是一种将深度神经网络与DPG算法结合的代表性方法。DDPG是深度Q网络(Mnih等人,2015)的改进版本,适用于连续动作空间。由于其强大的决策能力,DDPG已被广泛应用于机器人控制等领域。
本研究采用BLS与DDPG(DDPG-BLS)结合的方法进行NIRS分析,以构建适用于NIRS数据表征的模型。通过添加SS或SS-MRMR算法(即SS-DDPG-BLS或SS-MRMR-DDPG-BLS),进一步优化了模型的性能,以应对NIRS数据中标记样本较少而未标记样本较多的情况。实验结果表明,所提出的模型能够有效处理少量标记数据和大量未标记数据,并准确预测目标指标。

部分内容摘录

样品采集与光谱获取

黄山毛峰茶是中国著名的茶叶之一。本研究从黄山各地采集了158个茶叶样本。首先使用粉碎机将所有茶叶样本粉碎,通过0.154毫米的筛网筛选,充分混合后密封保存以备后续分析。使用Thermo Fisher Scientific Antaris II FT-NIR光谱仪(美国加州卡尔斯巴德)收集了黄山毛峰茶样本的光谱数据,光谱分辨率为4 cm-1,共进行了60次扫描。

模型参数

在SS和SS-MRMR算法中,置信度最高的10%样本被标记为高置信度样本,最大迭代次数设置为10次。对于两种不同的QR模型,分位数分别设置为0.05和0.95,从而覆盖目标值分布的90%。
DDPG-BLS中的三个要素(状态、动作和奖励)设计如下:
  • (1)
    状态:BLS模型的配置参数,直接影响其结构
  • 结论

    本研究提出了一个结合SS算法或SS-MRMR算法的DDPG-BLS模型,用于NIRS数据分析。在标记数据有限而未标记数据丰富的情况下,这两种模型能够同时利用标记数据和未标记数据提取有价值的信息,从而实现有效建模。此外,SS-MRMR-DDPG-BLS模型通过选择最具信息量的特征进一步提升了模型性能。

    CRediT作者贡献声明

    陈山:验证、数据整理。李芳:验证、资源管理、数据整理。潘天红:撰写 – 审稿与编辑、方法论设计、概念构建。郑涛·西:撰写 – 原稿撰写、软件开发、数据整理

    未引用参考文献

    Chen和Liu,2018;van Engelen和Hoos,2020;Wang等人,2024。

    资助

    本研究得到了安徽省重大科技项目(项目编号202003a06020001)的支持。

    利益冲突声明

    作者声明没有已知的财务利益冲突或个人关系可能影响本文的研究结果。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普
    • 急聘职位
    • 高薪职位

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号