基于GC×GC-TOFMS与机器学习的开源计算指纹工作流用于纯汽油来源分类研究

【字体: 时间:2025年09月22日 来源:Journal of Chromatography A 4

编辑推荐:

  本研究针对纵火调查中可燃液体残留(ILR)来源难以精准识别的问题,开发了一种基于全二维气相色谱-飞行时间质谱(GC×GC-TOFMS)和机器学习的开源计算指纹工作流。通过分析阿尔伯塔省10个加油站的69个纯汽油样本,研究人员利用递归特征添加(RFA)筛选出21种关键化学特征,结合决策树分类器将分类准确率提升18%。该工作流为建立区域特异性汽油数据库提供了透明、可重复的分析框架,显著增强了纵火案件中可燃液体的溯源能力。

  

在纵火案件调查中,准确识别现场可燃液体残留(Ignitable Liquid Residue, ILR)的来源一直是法医化学领域的重大挑战。尽管汽油是最常见的纵火助燃剂,但传统的一维气相色谱-质谱(GC-MS)技术由于分辨率和灵敏度有限,难以区分不同品牌或供应商的汽油。更复杂的是,汽油本身包含数百种化合物,其成分受原油来源、炼制工艺和地区差异的影响而显著不同。目前的标准方法(如ASTM E1618-19)主要侧重于识别汽油的存在与否,而非追溯其具体来源,这限制了其在刑事案件中的证据价值。

近年来,全二维气相色谱耦合飞行时间质谱(GC×GC-TOFMS)技术的发展为复杂混合物的分析带来了革命性突破。其高峰容量和灵敏度能够捕获更多化学特征,但随之产生的海量数据也给数据处理和解读带来了巨大困难。如何从数万个化学特征中筛选出具有溯源价值的关键指标,并建立可靠的计算模型,成为当前研究的重点。

为此,由Huy Manh Nguyen、Roxana Sühring、Caleb Marx、You Liang、Court Sandau和Gwen O’Sullivan组成的研究团队开展了一项开创性工作。他们开发了一套开源的计算指纹工作流,结合GC×GC-TOFMS和非靶向化学分析,成功实现了对纯汽油样本的精准来源分类。该研究成果发表在《Journal of Chromatography A》,为法医化学领域提供了新的技术路径和数据库构建方法。

研究人员从加拿大阿尔伯塔省卡尔加里的10个加油站采集了69个纯汽油样本,涵盖87、89、91和94四种辛烷值规格。样本在2018年9月、2020年2月和2020年6月分三批采集,涵盖了炼油厂直供和独立营销商两种供应类型。通过GC×GC-TOFMS分析,获得了包含25,415个化学特征的初始数据集。

研究采用的关键技术方法包括:1) 使用GC×GC-TOFMS进行高通量化学分析;2) 通过保留时间窗口和质谱相似性进行峰对齐和特征提取;3) 采用随机全局最小值插补和总和对数归一化处理缺失值;4) 应用递归特征添加(RFA)进行特征选择;5) 基于随机森林(Random Forest)算法构建分类模型,并通过交叉验证评估性能。

3.1. 数据处理

经过溶剂、柱流失和低信噪比特征的过滤,研究人员将特征数量从274个压缩至174个,仅损失了2%的总峰面积,有效去除了化学噪音。通过保留时间漂移评估和特征合并策略,最终得到230个具有化学意义的特征。这些特征中,80%可被归类为烷烃、烯烃、环烷烃、芳香烃(包括BTEX化合物)、茚满、多环芳烃(PAHs)等已知化学组,其余20%为“未分组”特征。不同加油站的样本在关键化学组份上表现出明显差异,这为后续分类提供了基础。

3.2. 化学计量学分析

3.2.1. 数据插补和归一化

通过比较九种插补-归一化组合,研究发现随机全局最小值插补结合总和归一化(TSN)在聚类分辨率和分类准确性方面表现最佳。该方法在消除缺失值的同时,较好地保持了数据分布和峰面积差异,使样本间变异最大化而样本内变异最小化。

3.2.2. 特征选择和监督机器学习算法

在四种特征选择方法中,递归特征添加(RFA)显著优于其他方法(p<0.000065),将特征集从230个压缩至平均6±2个,同时使马修斯相关系数(MCC)达到0.47±0.11。相比之下,使用全部特征时MCC仅为0.28±0.11。这表明RFA能够有效识别具有分类价值的关键特征,而递归特征消除(RFE)由于噪声和特征间依赖关系而表现不佳。

通过优化后的随机森林分类器,研究成功区分了大多数加油站的汽油样本,特别是Station 1、3、4和8的样本分类准确率较高。这些加油站可能使用不同原油来源(如常规轻质油、重油、混合沥青或油砂合成原油)或采用不同的炼制混合工艺。而Station 5、7和9的样本存在误分类,这可能是因为阿尔伯塔炼油厂主要加工西部加拿大原油,且独立营销商(如Centex)可能从多个供应商采购汽油,导致化学特征重叠。

关键鉴别特征包括正构烷烃、环烷烃、烯烃(如特征383、6)和芳香烃(如特征56、92)。其中,三甲苯(1,3,5-和1,2,3-三甲苯)、乙基甲苯(2-、3-、4-乙基甲苯)等ASTM E1618-19中已列出的化合物被确认具有鉴别价值。更重要的是,研究还发现了超出ASTM列表的新特征,如第一维保留时间(1tR)在9-15分钟、第二维保留时间(2tR)在3.29-3.8分钟范围内的化合物,这些特征可能成为未来扩展标准列表的候选指标。

3.2.3. 工作流在纵火调查中的适用性

与以往研究相比,该工作流首次将决策树机器学习分类器与多变量特征选择相结合,用于非靶向GC×GC-TOFMS化学特征的汽油来源区分。其开源特性确保了透明度和可重复性,使法医分析人员能够根据本地需求构建区域数据库,而无需大量重新训练模型或编程专业知识。

研究也指出了若干局限性:实际纵火案例中的样本可能包含基质干扰(如纺织品、土壤、植被等),燃烧产物可能掩盖目标ILR化合物;汽油成分会随时间变化,需要定期更新数据库;对于成分极其相似的燃料,可能需要更大样本集和更先进的算法(如XGBoost或CatBoost)来提高区分能力。

该研究开发的开源计算指纹工作流成功解决了GC×GC-TOFMS大数据处理和解读的挑战,为纵火调查中的汽油来源追踪提供了有效工具。通过机器学习驱动的特征选择,研究人员从数万个化学特征中筛选出21个关键指标,实现了对不同加油站汽油样本的准确分类,平均提升分类准确率18%。这项工作不仅扩展了ASTM E1618-19标准中的目标化合物列表,还为建立区域特异性可燃液体数据库提供了可重复的框架,极大增强了法医化学在纵火案件中的证据能力。随着技术的进一步完善和数据库的扩展,这套方法有望成为未来火灾调查的标准分析工具。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号