基于机器学习的石油馏分与汽油痕迹识别:实测与合成GC谱图的创新应用

【字体: 时间:2025年08月24日 来源:Molecular Informatics 3.1

编辑推荐:

  这篇综述系统阐述了如何结合实测与合成气相色谱(GC)谱图,开发机器学习(ML)工作流,实现易燃液体(石油馏分PD、汽油BZ及其他物质HR)的高精度分类。研究通过k近邻(kNN)、随机森林(RF)及深度学习(DL)等算法,验证了合成数据对模型性能的提升,为法医火灾残留分析提供了高效自动化解决方案。

  

引言

当前纵火案件调查中,石油馏分和汽油因易获取、易燃等特性成为主要助燃剂。传统依赖专家人工分析气相色谱-质谱(GC-MS)数据的方法耗时且主观性强。本研究提出基于机器学习(ML)的自动化分类框架,结合实测与合成GC谱图,显著提升分类效率。

材料与方法

数据集:以色列法医科学部(DIFS)提供了四类数据:181例真实火灾现场样本(PD/BZ/HR)、89例后续验证样本及两类参考数据库(汽油/石油馏分的不同蒸发程度样本)。样本经固相微萃取(SPME)和GC-MS处理,色谱图数字化为2924维向量。

合成谱图算法:通过随机线性组合同类样本生成105条合成谱图,专家盲测显示其与真实谱图难以区分(正确识别率仅60%),验证了合成数据的合理性。

模型构建:采用kNN、RF、代表谱图及深度学习(DL)四种算法。DL模型为三层全连接神经网络,使用Adam优化器(学习率10-5)。数据归一化采用对数转换后线性缩放至[0,1]范围。

结果

初始模型性能:仅用真实数据训练的kNN和RF模型表现优异(F1-score 0.77-0.92),而代表谱图法效果较差(F1-score 0.61-0.68)。

合成数据增强:加入合成数据后,DL模型在真实测试集上F1-score达0.85-0.96。RF性能同步提升(F1-score 0.86-0.95),代表谱图法则出现精度与召回率的显著波动。

独立验证:后续89例真实样本测试中,DL和RF模型表现突出(F1-score 0.95-1.00),证实模型泛化能力。

讨论与结论

  1. 1.

    算法选择:kNN和RF等“简单”模型在数据量适中时即可达到与DL相当的分类精度,表明性能提升更多依赖训练数据规模而非算法复杂度。

  2. 2.

    合成数据价值:基于物理原理的谱图合成有效解决了小样本场景下DL的训练需求,可推广至其他法医分析领域。

  3. 3.

    应用前景:该工作流可扩展至其他易燃液体分类,并通过SHAP值等解释工具增强模型可解释性。

作者贡献与声明

Omer Kaspi主导实验设计与数据分析,Yaniv Y. Avissar负责数据采集,Hanoch Senderowitz统筹项目并资助。团队声明无利益冲突。

(注:全文严格依据原文内容缩编,未添加非文献支持信息。)

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号