用于法医死后时间间隔预测的可解释机器学习方法:基于SHapley加性解释技术的角膜ATR-FTIR光谱特征分析

《Microchemical Journal》:Interpretable machine learning for forensic post-mortem interval prediction: SHapley Additive exPlanations analysis of corneal ATR-FTIR spectral features

【字体: 时间:2026年02月05日 来源:Microchemical Journal 5.1

编辑推荐:

  本研究通过ATR-FTIR光谱技术与机器学习结合,首次建立角膜PMI预测模型,采用SHAP框架解释算法,发现碳水化合物骨架振动衰减和代谢产物特征峰积累是核心驱动因素,验证了“成分降解-产物积累”生化机制,为司法死亡时间推断提供新方法。

  
陈强|钱学红|肖浩|夏磊|邓世雄
重庆医科大学基础医学科学学院法医学系,中国重庆400016

摘要

准确估计死亡时间间隔(PMI)一直是法医病理学中的核心挑战。由于环境因素的显著干扰以及传统形态学方法缺乏客观的定量方法,本研究收集了130个大鼠角膜样本,利用衰减全反射傅里叶变换红外(ATR-FTIR)光谱技术与机器学习算法相结合,系统地分析了不同死亡时间间隔下角膜组织的光谱演变特征。研究构建并比较了10种回归模型,包括ElasticNet、Ridge、Lasso、PLSR、GPR、SVR、GBDT、XGBoost、RF和MLP。结果表明,ElasticNet模型表现出最佳的预测性能和泛化能力,交叉验证决定系数CV-R2为0.93,测试集R2为0.89,相应的CV-MAE和Test-MAE分别为4.71小时和5.27小时。此外,为了解决算法的“黑箱”问题,进一步引入了Shapley Additive exPlanations(SHAP)框架进行解释性分析,并选出了20个关键光谱特征。分析表明,碳水化合物骨架(C–O–C)振动强度的衰减和代谢物特征峰的积累是驱动模型决策的核心因素,这与死亡后角膜中的“成分降解-产物积累”生化机制高度一致。本研究首次建立了基于ATR-FTIR光谱技术和机器学习结合SHAP解释性分析的角膜PMI预测方法,为法医学中的死亡时间推断提供了一种快速、无损且可解释的新方法。

引言

在法医病理实践中,准确估计死亡时间间隔(PMI)不仅是解决案件的关键环节,也是验证嫌疑人供述真实性的关键逻辑支撑点[1],[2],同时也是司法审判中确定嫌疑人是否参与犯罪的核心证据[3],[4],[5]。可靠的PMI确定有助于执法部门高效重建事件时间线,从而缩小调查范围。这种时间精度通常是验证或反驳嫌疑人不在场证明、评估其参与可能性以及最终区分罪与非罪的决定性因素。
长期以来,法医学界一直在致力于寻找能够准确反映死亡后时间的“生物钟”[6],[7]。然而,实现这一目标面临重大挑战。传统的PMI推断系统主要依赖于观察体温、尸僵和尸斑等物理现象,或检测玻璃体液中的钾离子浓度等单一生化指标[8],[9],[10],[11],[12]。尽管这些标志物在死亡初期提供了一些线索,但在实际应用中容易受到各种内部和外部因素的影响,如环境温度和湿度的变化、空气流通条件以及尸体之间的个体差异[13],[14],[15],[16]。这些因素会干扰死亡后变化的自然进程,导致传统评估方法出现偏差。此外,形态学观察往往具有高度主观性,并且不同评估者之间的结果存在差异,而生化检测通常需要复杂的样本预处理,可能导致大量样本损失。更重要的是,死亡后的生物降解过程本质上是动态的,并受多种变量影响。传统方法仅限于低维的单变量分析或简单的经验公式,难以捕捉和解释这一过程中丰富的微观演变[17],[18]。这些局限性凸显了一个关键的科学问题:研究人员需要将重点从不稳定的外部体表特征转移到随时间演变的内在组织分解过程上。生物物质的死亡后降解涉及代谢过程、自溶和腐败,这是一个由酶相互作用而非随机混沌控制的复杂动态系统[19]。通过测量组织随时间的变化,特别是大分子的降解和代谢产物的积累,我们可以建立一个内在的分子钟来估计死亡时间[20]。量化这些特定的组织变化可以提供一个客观、可重复且可靠的时间线。因此,推进死亡时间间隔的估计需要从经验性的宏观判断转向基于高维数据的定量分析。
在各种技术中,傅里叶变换红外(FTIR)光谱技术因其对生物大分子中化学键振动模式的特异性敏感性而显示出独特的潜力[21],[22]。作为一种非破坏性分子技术,FTIR可以基于红外辐射与分子键之间的相互作用,灵敏地追踪生物组织内微观化学信息的动态变化,如蛋白质二级结构、碳水化合物骨架和脂质[23]。衰减全反射(ATR)技术的引入进一步革新了分析过程:通过利用高折射率晶体产生的衰减波穿透样本表面,ATR实现了原位、快速且最小侵入性的光谱采集——无需复杂的化学预处理。凭借其高通量、强客观性和极低的样本损失优势,ATR-FTIR技术逐渐突破了传统生化检测的局限,在体液污渍的来源追踪[24],[25],[26]、物种鉴定[27],[28],[29]以及法医损伤时间的推断[30],[31],[32]等领域建立了独特的应用价值。
近年来,随着人工智能与法医学的深度融合,机器学习(ML)算法被广泛引入光谱数据挖掘,旨在从大量高维光谱矩阵中提取人眼难以检测的特征[33],[34],[35]。我们的研究团队及相关学者在死亡原因分类[36]、旧血迹年龄测定[37]以及通过结合ATR-FTIR与化学计量学方法进行微量证据来源追踪[38]等领域取得了一系列突破。然而,当前研究普遍面临算法的“黑箱”问题[39],[40],即模型的内部决策逻辑高度不透明,人类难以理解。在当前法医学的发展背景下,证据的“科学有效性”不仅取决于预测结果的准确性,还取决于推理过程的逻辑可解释性。一个无法解释其生物学基础的算法也难以满足证据科学对“透明度和可信度”的要求[41],[42]。因此,如何打开算法的黑箱并将抽象晦涩的数学算法转化为具体的法医病理解释是一个亟待解决的问题。
为了解决上述理论和应用上的差距,本研究引入了Shapley Additive exPlanations(SHAP)框架作为后续解释工具。SHAP基于Lloyd Shapley在合作博弈论中提出的Shapley值概念,目前被认为是评估特征重要性最重要的、理论最完善的方法[43],[44],[45]。在光谱分析的背景下,SHAP框架将预测模型视为多人游戏,输入中的每个波数变量视为游戏中的“玩家”,模型的预测输出视为“总收益”[46]。该算法的核心机制在于通过计算特定特征在所有可能特征组合中的平均边际贡献来量化其对预测结果的独立贡献[47]。这一特征不仅为单个样本预测提供了精确的局部解释,还通过聚合所有样本的SHAP值,使我们能够获得反映变量整体重要性的全局视图。通过这种方式,我们可以在生物学层面上验证模型决策的科学性。
在本研究中,我们将ATR-FTIR光谱技术与多种先进的机器学习算法相结合。我们通过Optuna贝叶斯优化选择了最优模型,并引入了SHAP框架进行特征分析。本研究旨在解决以下三个核心问题:(1)阐明角膜在0–72小时死亡降解过程中酰胺蛋白带和碳水化合物特征区域的光谱演变轨迹;(2)基于贝叶斯优化构建一个高度稳健且可解释的机器学习回归模型,以实现高精度的死亡时间间隔(PMI)估计;(3)识别与PMI推断最相关的具体光谱特征,以阐明“成分降解-产物积累”的潜在生化机制。
据我们所知,这是首次将ATR-FTIR光谱技术与可解释的机器学习算法深度结合用于角膜PMI估计的研究,为法医学中的死亡时间推断提供了一种客观、定量且基于分子证据的新方法。

样本制备和预处理

本研究获得了重庆医科大学动物研究伦理委员会的批准,并在整个实验过程中严格遵守了对实验动物的福利和伦理标准。共选择了130只健康的雄性SD大鼠(200–250克,由重庆医科大学动物实验中心提供)用于实验。所有动物都在标准化的实验室环境中适应(温度22±2°C,相对湿度55±5%,12小时光暗周期)。

数据预处理

原始红外光谱通常包含非化学信息干扰,如基线漂移、散射效应和随机噪声。根据角膜组织的化学组成和分析目的,本研究选择了1800–900 cm?1区域(生物指纹区域),然后进行了一系列预处理步骤。首先,使用标准正态变量转换(SNV)来校正由颗粒不均匀引起的光散射效应。

角膜的平均光谱特征和吸收峰

图1显示了不同死亡时间点下1800–900 cm?1波数范围内的平均光谱和误差范围。特征峰的详细分布和分配见表1[51]。本研究确定了九个主要吸收峰,分别位于1647 cm?1、1545 cm?1、1452 cm?1、1402 cm?1、1340 cm?1、1236 cm?1、1101 cm?1、1080 cm?1和1049 cm?1。其中,最显著的峰是蛋白质区域的两个吸收峰,位于1647 cm?1和

结论

本研究首次建立并验证了一个基于SD大鼠角膜FTIR光谱与机器学习算法相结合的PMI预测评估框架。通过从死亡后0到72小时的全谱跟踪,PCA揭示了光谱特征沿时间轴的有序迁移,证实了角膜组织降解的明显时间依赖性。在模型构建层面,通过Optuna贝叶斯优化框架的系统性筛选,

CRediT作者贡献声明

陈强:撰写——原始草案、方法论、概念化。钱学红:项目管理、调查、数据管理。肖浩:资源获取、形式分析。夏磊:验证、监督、软件。邓世雄:撰写——审稿与编辑、资源获取、资金筹集。

利益冲突声明

作者声明他们没有已知的可能会影响本文所述工作的竞争性财务利益或个人关系。

致谢

本研究得到了重庆市自然科学基金 [资助编号 csct2021jcyj-msxmX0485]的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号