通过可解释的机器学习和HS-GC-IMS指纹分析技术对公共场所现场纸质燃烧残留物的来源进行划分
《Microchemical Journal》:Source apportionment of on-site paper-based combustion residues through interpretable machine learning and HS-GC-IMS fingerprint analysis in public security
【字体:
大
中
小
】
时间:2025年10月20日
来源:Microchemical Journal 5.1
编辑推荐:
本研究利用HS-GC-IMS技术结合可解释的机器学习模型,系统分析了纸张燃烧残留物中的挥发性有机化合物(VOCs),成功识别出51种关键VOCs并构建了特征指纹图谱,CatBoost模型准确率达96.67%,SHAP框架解释了特征重要性,为火灾调查提供了科学依据。
火灾调查在确定火灾起因和起源方面起着至关重要的作用,进而影响后续的刑事责任认定。在这一过程中,痕量证据的收集与分析对于证据确认、案件重建以及推动解决与火灾相关的案件具有重要意义。然而,现场燃烧残留物的复杂来源、微量存在以及证据完整性受损,使得痕量证据的提取在公共安全工作中面临重大挑战。此外,燃烧过程中产生的挥发性有机化合物(VOCs)作为潜在的分析对象,其特征性气味轨迹为挥发性证据分析提供了新的思路。本研究利用头空间气相色谱-离子迁移谱(HS-GC-IMS)技术对纸基燃烧残留物中的VOCs进行系统分析,结合基于树的机器学习算法,识别关键的VOC标记物,实现多种类别和低浓度挥发性物质的快速来源归因。通过这项研究,不仅成功识别了51种不同的挥发性物质,还对它们的拓扑分布和指纹图谱进行了可视化分析。结果显示,Categorical Boosting(CatBoost)模型在分类性能上表现最优,其准确率、精确率、召回率、F1分数和AUC值分别达到96.67%、96.51%、97.22%、96.72%和100%。通过应用SHapley Additive exPlanations(SHAP)框架,进一步提升了模型的可解释性,增强了分析结果的可信度和操作透明度。这些成果表明,将可解释的机器学习方法与HS-GC-IMS策略相结合,能够揭示复杂燃烧残留物来源与特征VOC图谱之间的关系。研究结果有望为火灾案件的调查、赔偿评估和法律责任判定提供科学依据。
在刑事调查中,痕量证据的系统分析对于确认证据、重建案件场景以及提供专业的法医鉴定具有关键作用。近年来,中国犯罪现场需要进行痕量证据分析的案件数量持续上升,其中火灾和爆炸事件占据了主导地位。根据统计,2019年涉及痕量证据分析的案件达到2903起,其中约84%与火灾和爆炸有关。燃烧残留物作为火灾现场的重要证据,不仅反映了火源的性质,还揭示了可燃物的类型和燃烧过程的动态变化。在实际案件中,这些残留物通常包括固体和液体两种形式,如塑料、木材、纤维、油漆、汽油和溶剂等。然而,由于其数量有限、关键成分浓度较低,且容易受到现场环境的污染,使得痕量证据的分析面临诸多困难。目前,法医对燃烧残留物的分析主要依赖于定性二分类方法,用于区分由基质干扰主导的阴性样本与由燃烧产物主导的阳性样本。根据ASTM E1618标准,传统的分析方法通常采用总离子色谱图和提取离子色谱图进行分析,但这种方法在面对复杂的燃烧残留物时存在局限性。例如,基质干扰、燃烧过程中的化学降解以及挥发性物质的蒸发都会导致色谱图谱的复杂化,从而影响分析的准确性。
挥发性有机化合物(VOCs)在燃烧残留物中普遍存在,它们不仅构成了残留物的主要成分,还可能携带与火源相关的独特信息。因此,对VOCs的分析和区分需要依赖高灵敏度和低检测限的微分析技术。气相色谱-质谱联用技术(GC–MS)和气相色谱-火焰离子化检测器(GC-FID)是目前常用的分析手段,它们能够识别特定品牌的特征,如制造商签名、产品等级等。然而,这些方法在实际应用中往往需要复杂的样品预处理步骤,如衍生化和溶剂提取,这些过程可能会改变原始VOCs的自然分布,进而影响分析结果的可靠性。相比之下,头空间气相色谱-离子迁移谱(HS-GC-IMS)技术在燃烧残留物分析中展现出独特的优势。该技术结合了头空间采样与气相色谱的分离能力,能够实现快速响应和极低的检测限(达到万亿分之一级别)。通过HS-GC-IMS,可以获取包括气相保留时间(tr)、漂移时间(td)和相对离子峰强度(RIP)等丰富的数据信息。与传统方法相比,HS-GC-IMS对样品的预处理要求较低,能够在不破坏样本的前提下,实现对特定标记物的定性和相对定量分析。此外,该技术还能对具有相似结构的化合物(如异构体)进行有效区分,提供了独特的VOC指纹图谱可视化能力。尽管GC和GC–MS在VOC检测方面具有高分辨率和高灵敏度,但它们通常需要繁琐的样品前处理步骤,而HS-GC-IMS则因其简化的工作流程、常压操作以及实时的VOC指纹可视化能力,更适合于现场快速筛查。
随着数据科学的发展,机器学习在痕量证据分析中的应用日益受到关注。机器学习算法能够从异质和复杂的数据集中自动提取有价值的信息,从而提高分析的效率和准确性。将机器学习方法如随机森林(RF)、支持向量机(SVMs)和神经网络与HS-GC-IMS技术相结合,被认为是提升痕量燃烧残留物识别能力的重要方向。例如,卷积神经网络(CNNs)已被成功应用于法医学领域,用于从犯罪现场图像中提取深层特征,辅助案件图像检索和分类。此外,神经网络框架还被用于分析血液成分中的特定化学键数据,以区分不同体液类型。在之前的诸多研究中,学者们尝试将多元统计分析与机器学习方法结合,用于对汽油成分进行分析和鉴定。同样,傅里叶变换红外(FT-IR)和拉曼光谱数据与集成算法的结合,也被用于精确分类油漆样本。气相色谱-质谱(GC–MS)与神经网络等机器学习算法的结合,已被用于识别火灾残留物中的可燃液体。激光诱导击穿光谱(LIBS)与决策树分类器的结合,也显示出在分类顽固残留物方面的潜力。然而,传统的机器学习模型往往存在“黑箱”特性,即其决策过程难以解释,这可能会影响分析结果的可信度和可解释性。因此,采用可解释的机器学习算法,有助于明确模型的决策机制,提高分析的透明度,并优化模型的性能。鉴于纸基燃烧残留物来源的多样性以及其VOC图谱的复杂性,将可解释的机器学习方法与HS-GC-IMS策略相结合,是推动法医残留物分析的重要方向。
本研究选取了四种具有代表性的纸张类型,分别命名为HZB、BZ、WLZ和WSZ,这些样本均来源于山东省济南市的一家超市。HZB样本由硬质卡纸制成,常用于信件、仪式活动和室内装饰。BZ样本属于通用纸张,广泛应用于专业、学术和行政文件。WLZ样本采用波纹纤维素基材,具有更强的结构稳定性,适合用于保护性包装。WSZ样本则是一种特殊用途的纸张,可能在特定环境下使用。为了确保实验的准确性,所有纸张样本均经过严格筛选和处理。研究过程中,使用HS-GC-IMS技术对燃烧残留物中的VOCs进行了系统分析。该技术能够在氮气气氛下,通过β辐射离子化产生反应离子,如H+(H2O)n。随后,将这些挥发性物质注入离子源,产生带电粒子,并在电场作用下测量其漂移速度。当质子亲和力超过691 kJ/mol时,质子转移会引发软化学电离,从而形成信号峰。不同挥发性物质由于其化学性质的差异,会表现出不同的漂移时间和离子漂移速度,这种特性使得HS-GC-IMS能够对复杂的燃烧残留物进行有效区分。通过该技术,研究团队获取了燃烧残留物中VOCs的指纹图谱,并结合基于树的机器学习算法,如随机森林(RF)、极端梯度提升(XGBoost)、梯度提升决策树(GBDT)和分类器提升(CatBoost),对关键挥发性标记物进行了识别和分类。最终,CatBoost模型在分类性能上表现最佳,准确率达到100%,同时通过SHAP框架进一步明确了特征的重要性,增强了模型的可解释性。研究还识别了若干关键的VOC标记物,如butanal-D/M、2-丁酮和2-戊酮,这些标记物在不同燃烧残留物中具有显著的区分能力。
在实际应用中,HS-GC-IMS技术的可解释性不仅有助于提高分析的准确性,还能增强其在法医实践中的实用性。例如,在现场调查中,快速而准确的VOC指纹识别对于确定火灾起源和来源至关重要。传统方法可能需要较长时间进行样品处理和仪器分析,而HS-GC-IMS结合机器学习的策略能够在短时间内完成复杂残留物的分析,从而提高案件处理的效率。此外,该方法还能够为火灾赔偿评估和法律责任判定提供科学依据,因为其分析结果能够明确地反映出不同燃烧来源之间的差异。例如,通过识别特定的VOC标记物,可以判断火灾是否涉及人为因素,如可燃液体的使用,或者是否由自然因素引起,如电气故障或意外点火。这种能力对于司法部门的决策具有重要意义,因为它能够提供更加可靠的证据支持。
研究还强调了建立和维护HS-GC-IMS VOC数据库的重要性。由于燃烧残留物的来源多样,其VOC图谱也呈现出高度的复杂性和变异性。因此,只有通过大量的数据积累和分析,才能实现对不同残留物类型的全面追溯和准确预测。建立一个包含多种燃烧残留物的VOC数据库,不仅能够提高模型的泛化能力,还能为未来的法医分析提供参考。此外,随着技术的不断进步,HS-GC-IMS设备的性能和精度也在不断提高,这使得其在实际应用中的可行性进一步增强。未来的研究可以进一步优化该技术,提高其在不同环境下的适用性,同时探索更多可解释的机器学习算法,以增强模型的透明度和可信赖性。此外,还可以将HS-GC-IMS与其他分析技术相结合,如光谱分析或化学计量学方法,以实现更全面的燃烧残留物分析。这种多技术融合的策略不仅能够提高分析的准确性,还能增强其在复杂案件中的适用性。
在法医学领域,痕量证据的分析一直是技术发展的重点。HS-GC-IMS技术的引入为这一领域带来了新的机遇。该技术不仅能够快速、非破坏性地获取VOCs数据,还能够通过其独特的漂移时间和离子漂移速度特性,实现对复杂残留物的精准识别。与传统方法相比,HS-GC-IMS的简化流程和实时可视化能力使其更适合于现场快速筛查,特别是在需要迅速判断火源和残留物来源的案件中。此外,结合可解释的机器学习算法,能够进一步提升该技术在法医学中的应用价值。例如,通过SHAP框架对模型进行解释,不仅能够明确哪些VOC标记物对分类结果具有决定性影响,还能帮助法医专家更好地理解模型的决策过程,从而提高分析结果的可信度和实用性。这种结合不仅有助于提升火灾案件的调查效率,还能够为司法程序提供更加科学和可靠的证据支持。
本研究的成功实施表明,将HS-GC-IMS技术与可解释的机器学习方法相结合,是一种有效的分析策略。该策略不仅能够提高VOCs分析的准确性,还能增强其在复杂现场条件下的适用性。例如,在处理含有多种可燃物的燃烧残留物时,HS-GC-IMS能够通过其高灵敏度和低检测限,捕捉到微量的VOCs信号,而机器学习算法则能够快速处理这些数据,并识别出关键的标记物。这种能力对于法医在面对复杂案件时尤为重要,因为他们需要在短时间内获取足够的信息,以支持案件的调查和判决。此外,研究还强调了建立标准化的HS-GC-IMS VOC数据库的重要性,这对于提高模型的泛化能力和分析的准确性具有重要意义。通过不断积累和更新数据,可以进一步优化模型的性能,使其能够适应更多类型的燃烧残留物,并在不同环境下保持良好的分析效果。
在实际应用中,HS-GC-IMS与机器学习的结合还可能带来其他方面的优势。例如,该技术能够实现对VOCs的实时监测和可视化分析,这有助于法医在案件调查过程中更快地做出判断。此外,由于HS-GC-IMS能够提供独特的指纹图谱,使得不同来源的燃烧残留物在VOCs层面具有显著的区分性,这种能力对于识别非法行为或可疑来源具有重要意义。例如,在涉及纵火或故意纵火的案件中,HS-GC-IMS与机器学习的结合可以提供更加可靠的证据,帮助司法部门准确判断责任归属。此外,该技术还可以用于环境监测和火灾预防,通过对不同区域燃烧残留物的VOCs进行分析,可以识别潜在的火灾风险点,并采取相应的预防措施。
综上所述,本研究通过将HS-GC-IMS技术与可解释的机器学习方法相结合,成功实现了对纸基燃烧残留物中VOCs的全面分析和快速识别。该方法不仅提高了分析的效率和准确性,还增强了其在法医学中的应用价值。未来,随着技术的进一步发展和数据的不断积累,HS-GC-IMS与机器学习的结合将在火灾调查、法律责任评估和案件重建等方面发挥更大的作用。此外,该技术的推广和应用也将有助于提高法医学的整体水平,为公共安全和司法公正提供更加坚实的科学基础。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号