机器学习作为一种通过分析光谱线参数来检索压力值的方法:以盐酸为例
《ACS Physical Chemistry Au》:Machine Learning as a Method for Retrieving Pressure Values by Analyzing Spectral Line Parameters: The Hydrochloric Acid Case
【字体:
大
中
小
】
时间:2025年11月06日
来源:ACS Physical Chemistry Au 4.3
编辑推荐:
基于HITRAN数据库模拟不同压力、温度和光学路径的高分辨率光谱,提出一种非侵入式机器学习压力估算方法。通过Voigt profile拟合提取谱线参数作为特征,训练六种机器学习模型,发现ExtraTrees模型在合成数据集上RMSE达23.95 mbar。实验验证显示,在78-200 mbar压力范围内误差低于5%,但压力升高至790 mbar时误差增至29.3%,主要受谱线重叠和拓宽效应影响。该方法有效解决了HCl腐蚀性气体对传统压力传感器的损害问题,为气体环境压力估算提供了可靠新途径。
本研究提出了一种非侵入性的机器学习方法,通过分析HCl分子的红外光谱线来推断压力。这种方法利用了HITRAN数据库进行高分辨率光谱的模拟,覆盖了多种压力(15-900毫巴)、温度(273-373 K)和光路长度(1-10.5厘米)的条件。通过对这些光谱线进行Voigt轮廓参数的提取(包括振幅、中心、高度以及高斯和洛伦兹宽度),并将其作为输入特征,训练了六种机器学习模型。其中,ExtraTrees算法表现最为出色,在合成数据上的均方根误差(RMSE)仅为23.95毫巴。在使用实验光谱进行验证时,发现该模型在较低压力(如78毫巴)下的误差低于5%,例如误差为2.62%。这种结合模拟训练与实验验证的混合方法,不仅避免了传感器直接暴露于腐蚀性环境,还提供了一种可靠的压力推断手段,有助于减少设备的长期使用成本和维护需求。
HCl作为一种在天体化学和工业领域具有重要应用价值的分子,其光谱特性可以揭示系统中的物理参数,如压力、温度等。在HCl的光谱分析中,由于其高度反应性和腐蚀性,直接测量压力常常受到传统传感器性能的限制。这不仅影响了数据的可靠性,还限制了设备在长时间运行中的使用寿命。因此,开发一种非侵入性的替代方法成为研究的重要方向。通过利用机器学习技术,研究者能够自动处理和分析光谱数据,从而提取出关键的物理信息。这种方法不仅提高了分析效率,还减少了对昂贵和易损传感器的依赖。
近年来,机器学习在物理和化学研究中的应用日益广泛,特别是在光谱分析领域。例如,Schleder等人展示了机器学习如何在量子模拟和数据驱动发现之间架起桥梁,从而快速预测电子结构和热力学稳定性。Duarte等人则利用机器学习加速了天体物理学中的吸积流模拟,效率提升了数万倍。在光谱学中,Manh等人证明了机器学习在预测紫外-可见吸收光谱方面的优越性,甚至在某些情况下优于计算成本高昂的量子化学方法。此外,Guest等人利用投票回归器预测了系外行星大气中的压力展宽参数,达到了69%的准确性,从而提升了辐射传输模拟的效率。
本研究中,HCl的光谱分析对于理解地球、金星和火星等行星的大气层特性至关重要。在这些行星的大气中,HCl影响着辐射平衡、云层形成以及地表与大气之间的相互作用。例如,在金星的大气中,HCl的存在与火山气体的释放和硫循环密切相关;而在火星上,它作为地下氯元素储备的标志物,反映了短暂的大气化学过程。在太阳系之外,HCl还被用作研究恒星形成区域和演化恒星包层的重要探针。这些应用表明,HCl的光谱分析在天体化学和工业应用中具有重要的科学和工程价值。
为了克服HCl腐蚀性带来的实验挑战,本研究采用了一种混合方法,首先利用HITRAN数据库模拟光谱,以获得在不同物理条件下的一组数据。随后,将该方法应用于实际实验光谱,以验证其在真实条件下的表现。通过这种方法,研究者能够在不直接接触腐蚀性气体的情况下,实现对压力的准确推断。这不仅提升了实验的安全性,还扩大了数据获取的范围,使研究能够覆盖更广泛的物理条件。
实验部分采用了Bruker IFS 125HR傅里叶变换光谱仪,该设备配备了液氮冷却的InSb探测器和Si/Ca镀膜的光束分束器。为了减少噪声,实验数据经过了50次干涉图的叠加,分辨率达到0.050 cm?1。实验光谱在293 K的温度下,分别在78、145、200、398和790毫巴的压力条件下进行采集。为了更全面地分析HCl的光谱特性,研究者同时考虑了HCl的两种主要同位素形式:H3?Cl和H3?Cl。这两种同位素在自然丰度中的比例约为3.1267:1,因此在实验中同时记录和分析它们的光谱线,有助于更精确地提取物理参数。
在数据处理过程中,研究者首先对光谱进行了预处理,然后使用Voigt轮廓拟合方法提取关键特征。Voigt轮廓是高斯轮廓和洛伦兹轮廓的组合,能够更准确地描述光谱线的展宽现象。通过拟合Voigt轮廓,研究者获得了六种物理参数:振幅、中心、高度、高斯宽度、洛伦兹宽度以及全宽半高(FWHM)。这些参数被用作机器学习模型的输入特征,以训练和优化模型。此外,为了确保不同参数在模型中的平衡贡献,研究者对数据进行了标准化处理,使用StandardScaler方法将每个特征的均值调整为零,标准差调整为一。
在机器学习模型的选择上,研究者采用了六种不同的算法:ExtraTrees、XGBoost、LightGBM、随机森林、K近邻(KNN)和决策树。这些算法均通过Python的scikit-learn库实现,除了XGBoost和LightGBM,它们虽然有兼容scikit-learn的接口,但属于独立的生态系统。在比较不同模型的性能时,研究者发现基于树的模型(如ExtraTrees、随机森林、XGBoost和LightGBM)在预测压力方面表现最佳,而KNN和决策树则相对逊色。这种差异可能与模型对非线性关系的处理能力有关。
在模型训练和测试过程中,研究者使用了交叉验证方法,并将数据集划分为训练集和测试集。训练集包含80%的数据(63,487条光谱线),而测试集则包含20%的数据(15,872条光谱线)。通过这种方式,研究者能够确保模型的泛化能力,并避免过拟合。在最终训练阶段,研究者对模型的超参数进行了优化,采用了贝叶斯搜索策略,结合交叉验证,以找到最优的模型配置。优化后的ExtraTrees模型在测试集上的RMSE为23.34毫巴,非常接近训练集上的结果(23.95毫巴),表明该模型在不同数据集上具有良好的一致性。
在实验验证阶段,研究者使用了真实实验光谱,这些光谱覆盖了78到790毫巴的压力范围。通过对实验数据的分析,发现模型在较低压力下的预测误差较小,例如在78毫巴的压力下,误差仅为2.62%。然而,在较高压力条件下,模型的预测误差逐渐增加,例如在398毫巴时,误差达到12.57%,而在790毫巴时,误差甚至高达29.30%。这种误差的增加可能与光谱线的重叠和展宽效应有关,这些现象在高压力条件下更为显著。此外,研究者还发现模型在高压力区域存在一定的低估趋势,这表明模型可能在处理非线性关系或极端数据时存在一定的局限性。
为了更全面地评估模型的预测误差,研究者对实验数据进行了统计分析。通过计算残差的分布,研究者将压力范围划分为四个较小的区间:[0, 200]、[200, 400]、[400, 600]和[600, 800]。在每个区间内,研究者采用了两种不同的方法来估计模型的不确定性:第一种是基于残差的均方根误差计算95%的置信区间;第二种是直接从残差分布的百分位数计算置信区间。这两种方法虽然得到的误差区间略有不同,但总体上呈现出相似的趋势。研究者最终选择使用±2个标准差作为误差区间,因为这种方法更为简单,且便于解释。
在模型的评估中,研究者发现,虽然ExtraTrees模型在合成数据上的表现优异,但在实际实验数据中的误差趋势与训练数据存在一定的差异。特别是在高压力区域,模型的误差显著增加,这可能与实验数据中某些特征的缺失或数据分布的不对称性有关。因此,研究者建议未来可以考虑引入更多的变量或开发新的模型,以更好地处理高压力条件下的非线性关系。此外,研究者还提到,该方法不仅可以应用于HCl,还可以扩展到其他具有类似压力展宽特性的分子,如HF、HBr和CO,只要重新评估实验条件(如压力范围、同位素形式)并调整超参数即可。
本研究的结果表明,通过结合高分辨率光谱模拟和机器学习技术,可以实现对气体系统压力的非侵入性推断。这种方法不仅克服了传统传感器在腐蚀性环境中的局限性,还提高了压力测量的准确性和可靠性。同时,研究者还指出,该方法具有广泛的适用性,可以用于其他分子的光谱分析,并且在低分辨率光谱数据中也能取得良好的效果。未来的研究方向包括扩大数据集,获取更多不同温度、光路长度和压力条件下的真实光谱数据,以进一步提升模型的泛化能力和预测精度。这不仅有助于深化对HCl及其同位素的光谱特性的理解,还可能推动机器学习在其他物理和化学研究领域的应用。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号