
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于混合数据集的宽带中红外吸收光谱优化分析:提升痕量气体检测灵敏度新策略
【字体: 大 中 小 】 时间:2025年06月09日 来源:Analytica Chimica Acta 5.7
编辑推荐:
针对宽带中红外激光光谱中仪器噪声和基线漂移干扰痕量气体检测的难题,研究人员提出结合实测空白光谱与模拟吸收系数的混合数据集方法,显著提升了CLS(经典最小二乘法)和PLS(偏最小二乘法)模型的性能,成功实现人体呼气中低至ppb级丙酮的精准检测,为复杂气体混合物的高灵敏度分析提供了通用解决方案。
在气体传感领域,宽带中红外光谱技术因其能够捕获分子"指纹"区域的强吸收特征而备受关注。随着超连续谱激光光源的发展,光谱覆盖范围已扩展至2-11.5 μm,为多组分痕量气体检测提供了前所未有的高分辨率数据。然而,这些先进光源在带来复杂光谱信息的同时,也引入了仪器特异性噪声和基线漂移,使得传统数据处理方法如经典最小二乘拟合(CLS)在分析高浓度背景(如呼气中5%的CO2
)下ppb级痕量组分(如丙酮)时面临巨大挑战。
针对这一瓶颈,来自荷兰拉德堡德大学的研究团队创新性地提出"混合数据集"方法,通过整合模拟吸收光谱与实测空白光谱,构建出既保留物理准确性又包含真实仪器噪声的训练环境。这项发表于《Analytica Chimica Acta》的研究表明,该方法可将丙酮检测限优化至180ppb,显著提升了呼气分析等实际应用的可靠性。
关键技术方法
研究采用IDFG(脉冲内差频生成)超连续谱光源(3W,2-11.5μm)结合31.2m多通气体池和傅里叶变换光谱仪(FTS,分辨率0.1cm-1
),在8-11μm水透明窗口采集数据。通过HITRAN和PNNL数据库模拟11种呼气组分(如CO2
、H2
O、丙酮)的吸收系数,与实测空白光谱(310次扫描/样本)经自助采样法(bootstrap)结合构建混合数据集。采用Savitzky-Golay滤波器进行基线校正,并建立PLS(15个潜变量)和优化CLS模型,最终通过PTR-ToF-MS(质子转移反应飞行时间质谱)验证实际呼气样本检测结果。
研究结果
3.1 无噪声光谱训练的PLS模型失效验证
对比实验显示,仅用模拟吸收系数训练的PLS模型在无噪声测试集上表现完美(Q2
≈1),但应用于含仪器噪声的混合数据集时完全失效(如乙醇预测误差达±100ppm)。这证实忽略设备特异性效应会导致模型在实际应用中崩溃。
3.2 混合数据集工作流的全面验证
优化后的PLS模型(窗口宽度75)对CO2
和H2
O预测极佳(Q2
0.9),丙酮RMSE达179ppb。特别发现针对特定化合物(如丙酮)调整潜变量数量可进一步提升性能。CLS模型通过引入多项式基线校正和饱和水特征阈值(忽略>5%H2
O区域),将丙酮预测误差从>1ppm降至210ppb。
3.3 实际呼气样本检测
8例人体呼气测试中,优化模型与PTR-ToF-MS结果高度吻合(系统偏差:PLS +105ppb,CLS -60ppb),而未优化模型出现>1ppm误差甚至负值。证明混合数据集能有效克服水蒸气干扰(1-8%)和基线漂移对宽带丙酮特征(1-3000ppb)的影响。
结论与意义
该研究建立的混合数据集工作流具有三大突破性价值:首先,为CLS模型优化提供可控环境,例如通过阈值设置消除高浓度H2
O的交叉干扰;其次,解决了统计模型(如PLS)训练所需大规模精确标注数据获取难题;第三,可预先评估特定仪器-应用组合的检测限。这种方法可推广至任何宽带吸收光谱系统,为机器学习在气体传感领域的应用铺平道路。值得注意的是,模拟精度(如光程、温度参数)和实测噪声的保真度是成功关键,未来可通过加入校准步骤进一步提升模型适应性。这项技术对呼气诊断、环境监测等领域实现ppb级多组分同步检测具有重要应用价值。
生物通微信公众号
知名企业招聘