《Analytica Chimica Acta》:GAN-FixMatch: A Generative–Semi-supervised Deep Learning Framework for Small-Sample Quantitative Analysis in Near-Infrared Spectroscopy of Agricultural and Pharmaceutical Materials
编辑推荐:
近红外光谱定量分析中存在标注数据不足的问题,本文提出GAN-FixMatch框架,结合生成对抗网络和半监督学习,生成大量真实未标注光谱并利用噪声扰动正则化提升模型鲁棒性。实验表明该方法在三个数据集上显著优于传统方法,R2达0.993,RPD为12.3051,有效解决了小样本条件下的模型优化难题。
彭莉|邱成龙|段金龙|秦瑶|李明星|翟丹丹|程希乐|杨宇
教育部 Grain 信息处理与控制重点实验室,河南工业大学,郑州 450001,中国
摘要
背景
近红外(NIR)光谱已成为农业、制药和药材领域快速、无损定量分析的关键工具。然而,深度学习模型的预测性能受到标记 NIR 光谱有限可用性的严重限制,因为化学参考测量的过程既费时又昂贵。现有的数据增强策略要么产生不真实的光谱变化,要么引入标签漂移,从而降低模型可靠性。因此,当只有少量样本可以通过化学参考测量进行标记时,实现准确且稳健的 NIR 定量建模是核心挑战。
结果
我们提出了 GAN-FixMatch,这是一种混合生成式-半监督框架,它能够合成大量真实的无标记光谱,同时确保预测的一致性,以实现稳健的定量建模。一维 GAN 准确捕捉了真实样本中的全局吸收模式和细微的光谱变化,从而扩展了训练分布,而不会引入回归标签漂移。基于这些合成光谱,FixMatch 应用了双重扰动——低幅度的加性高斯噪声用于生成可靠的伪标签,高幅度的加性高斯噪声用于使模型趋向于不变的预测——有效利用无标记信息,在小样本约束下稳定学习。在三个具有代表性的 NIR 数据集(药物颗粒、玉米粒和美国人参)上的广泛实验表明,GAN-FixMatch 在多个一维 CNN 架构中始终优于完全监督的基线方法、传统的无监督增强方法和 GAN 标记合成方法。值得注意的是,该方法在决定系数(R2)、均方根误差(RMSE)和残差预测偏差(RPD)方面取得了显著提升,最佳模型的 R2 为 0.993,RPD 为 12.3051,表明其准确度、稳健性和泛化能力显著提高。
意义与创新性
本研究首次提出了一个结合生成光谱建模和半监督一致性学习的框架,用于 NIR 定量分析。该方法克服了传统增强方法和 GAN 标记策略的固有局限性,能够在标记数据稀缺的情况下实现高精度预测。GAN-FixMatch 为基于 NIR 的质量评估提供了稳健、可扩展的途径,并在药物分析、食品质量评估和生物材料表征等更广泛的应用中展现出巨大潜力。
引言
准确量化化学成分对于确保药品、农产品和中药的质量与安全至关重要。传统上,这类分析依赖于湿化学技术,包括滴定、凯氏氮测定和高性能液相色谱法。尽管这些方法具有高分析精度,但它们通常耗时、劳动密集且成本高昂,不适合快速或大规模的质量评估。为了克服这些限制,近红外(NIR)光谱作为一种不可或缺的分析技术应运而生,因为它具有快速测量和无损分析的固有优势。NIR 可以高效可靠地表征复杂的化学组成,无需复杂的样品制备,因此在相关领域得到了广泛应用。近年来,NIR 光谱与深度学习方法的结合进一步推动了该领域的发展。与传统化学计量方法相比,深度学习能够自动提取层次化的光谱特征,显著提高了预测精度和模型稳健性。这种结合凸显了 NIR-深度学习框架在解决质量控制和成分分析实际问题方面的巨大潜力 [1]、[2]、[3]、[4]。
然而,深度学习模型的性能严重依赖于大量标记数据,但 NIR 光谱的数据注释仍然具有挑战性 [5]、[6]、[7]、[8]、[9]、[10]。例如,谷物中的粗蛋白含量或美国人参中的总人参皂苷浓度等参考测量通常需要昂贵且耗时的实验室分析。这些繁琐的程序限制了可标记样本的数量,导致数据集规模较小。数据不足常常导致模型过拟合、预测精度降低以及对未见样本的泛化能力差 [11]、[12]。深度学习对数据的高需求与标记 NIR 光谱的有限可用性之间的不匹配已成为推进 NIR 定量建模的主要瓶颈。
为缓解这一不匹配问题,人们探索了几种方法。第一种方法是无监督数据增强,通过扰动现有光谱来人工扩展训练数据集。扰动包括随机基线移动、乘法强度缩放和模拟散射效应的斜率变化 [13]、[14]、[15]。这些策略增加了分布多样性并提高了模型稳健性,但关键在于保留了原始参考标签。然而,由于增强后的光谱不一定反映真实的物理化学变化,其真实性有限,限制了它们完全替代额外实验数据的能力。第二种方法基于 GAN 生成的标记数据 [16]、[17]。生成对抗网络(GAN)可以同时合成光谱信号和相关回归标签,从而为训练提供新的数据对 [18]。这种技术同时扩展了特征和标签空间,比简单的扰动策略更为真实。实证证据表明,基于 GAN 的方法在小规模应用中可以提高性能。然而,当这些方法被广泛使用时,常常会遇到标签漂移和分布不匹配等问题,导致误差累积并影响预测可靠性。因此,尽管基于 GAN 的标记数据生成方法具有很大潜力,但仍不足以完全解决 NIR 回归中的小样本问题。
为了解决这些缺点,我们提出了一种名为 GAN-FixMatch 的新型混合框架,它将 GAN 的生成能力与半监督学习的一致性规范化范式结合起来 [19]、[20]、[21]。在这个框架中,GAN 用于生成大量合成但真实的光谱数据,这些数据没有相关的化学参考标签,模拟了真实样本的分布特征 [22]。从几何角度来看,光谱数据位于高维凸多面体内。先前的研究成功利用了这一拓扑属性,在凸包边界上选择了“关键光谱像素”,证明这些顶点包含足够的线性任务(如多变量曲线分辨率(MCR)所需的信息。然而,深度学习的要求根本不同。神经网络不仅需要定义流形的边界,还需要其内部的密集表示,以学习稳健的非线性映射并弥合稀疏标记样本之间的差距。在小样本情况下,这种数据多面体内的“空虚”或稀疏性阻碍了模型学习连续流形。因此,我们的方法旨在用高保真的人工样本“填充”这个数据多面体的内部 [23]。尽管这些合成光谱是无标记的,但它们丰富了训练数据集的多样性,并捕捉到了有限真实数据集中缺失的有意义的光谱变化。随后,FixMatch 被用来利用这些无标记数据,通过对同一光谱施加不同强度的噪声扰动。一致性规范化的基本原理是,如果我们对同一输入施加不同的扰动,模型的预测应保持相似。实际上,带有弱噪声扰动的光谱的预测作为伪标签,而带有强噪声扰动的光谱的预测则受到约束以保持一致性。这种双分支策略确保了无标记数据有效贡献于模型训练,同时保持了预测的稳定性。通过结合生成建模和半监督规范化,GAN-FixMatch 直接解决了标记数据的稀缺问题,并克服了现有增强技术的固有局限性。
本研究的主要贡献总结如下:
(1)构建了两个标记的 NIR 数据集:玉米粒中的粗蛋白含量和美国人参中的总人参皂苷含量。
(2)提出了一个 GAN-FixMatch 框架,有效扩展了光谱数据集并提高了下游回归性能。
(3)系统评估了 GAN 生成的光谱,并验证了 GAN-FixMatch 在多个代表性模型中的有效性。
部分内容
材料与方法
如图 1 所示,本研究遵循统一的工作流程,包括数据集构建、训练集处理和模型开发。使用了三个 NIR 光谱数据集——一个公共数据集和两个自建数据集,每个数据集都配对了相应的生化参考值用于回归任务。数据集使用 Kennard–Stone 方法进行了划分,之后采用了四种训练集处理策略(无增强、无监督增强、GAN 标记生成和
样本的光谱特征
图 7 展示了药物颗粒、玉米粒和美国人参的平均 NIR 光谱,阴影区域表示样本间的差异。主要吸收峰与 O–H、C–H 和 N–H 键的泛音和组合振动有关,反映了材料的化学组成。对于药物颗粒,在 1000 nm(O–H 第二泛音)、1200 nm(C–H 第二泛音)、1500 nm(O–H 第一
讨论
数据增强和样本的有效利用对于提高模型性能至关重要,但不同策略在捕获光谱特征和泛化能力方面存在显著差异。在本研究中,提出了 GAN-FixMatch 框架,并使用多种一维 CNN 架构在三个代表性数据集上进行了全面评估。根据回归指标(RMSE、R2、RPD)的结果表明,
结论
本研究提出了 GAN-FixMatch,这是一种结合生成建模和半监督学习的混合方法,用于增强基于 NIR 的成分预测。GAN 生成的光谱在统计特性和视觉模式上与真实数据高度匹配,而下游任务在多个模型中都证实了性能的提升
CRediT 作者贡献声明
段金龙:研究。秦瑶:研究。李明星:研究。翟丹丹:方法学、研究。彭莉:写作 – 审稿与编辑、方法学、研究。邱成龙:写作 – 原稿撰写、方法学、研究、概念化。程希乐:研究。杨宇:写作 – 审稿与编辑、监督、概念化
利益冲突声明
作者声明他们没有已知的可能会影响本文工作的竞争性财务利益或个人关系。
利益冲突声明
? 作者声明他们没有已知的可能会影响本文工作的竞争性财务利益或个人关系。
致谢
本研究部分得到了 国家自然科学基金(编号:62505077)、海外学生科学技术活动项目优秀资助(资助编号:221240012)、河南省科学技术研究重点项目(资助编号:242103810065)以及 河南工业大学复杂性科学研究所的开放项目(资助编号:CSKFJJ-2026-2)的支持。