《Microchemical Journal》:Multi-model ensemble learning for accurate deep venous thrombosis age estimation using ATR-FTIR spectroscopy
编辑推荐:
准确估算血栓年龄对解决医疗纠纷和法医鉴定至关重要。本研究采用ATR-FTIR光谱结合投票集成模型(PLS和MLP)系统分析血栓形成中的化学成分动态变化,模型在316小时内预测血栓年龄的R2达0.9567,RMSE为20.82小时。SHAP分析显示碳水化合物动态变化是关键分子基础,1032 cm?1特征峰可用于晚期血栓识别。ATR-FTIR结合机器学习集成策略为法医鉴定提供了新方法。
钱学红|李英凡|魏蓓|黄彦蕾|傅瑶|马静|王宇森|邓世雄
重庆医科大学基础医学院法医学系,中国重庆400016
摘要
准确估计血栓年龄对于解决与静脉血栓栓塞相关的医疗纠纷和法医鉴定具有重大意义。然而,可靠的血栓年龄定量推断方法仍然有限。在本研究中,将衰减全反射傅里叶变换红外光谱(ATR-FTIR)与多种机器学习模型(PLS、ElasticNet、RF、XGBoost和MLP)以及集成学习策略(平均、堆叠和投票)相结合,用于系统地建模和分析血栓年龄。结果表明,结合PLS和MLP的投票集成模型在预测316小时内的血栓年龄方面表现最佳。该模型在交叉验证集和测试集上的R2值分别为0.9567和0.9557,RMSE分别为20.82小时和20.97小时,显示出优异的预测准确性和稳定性。SHAP特征重要性分析表明,血栓形成和组织过程中碳水化合物的动态变化是推断血栓年龄的重要分子基础,这直接反映了血栓的老化和组织过程,可以作为推断年龄的关键分子依据。特别是216小时后出现的1032 cm?1特征峰可以作为晚期血栓的关键光谱标志。总之,ATR-FTIR结合模型融合策略为法医鉴定和司法实践中的血栓年龄定量推断提供了一种新颖且可靠的方法。
引言
静脉血栓栓塞(VTE),包括深静脉血栓形成(DVT)和肺栓塞(PE),是全球第三大常见的心血管疾病[1,2]。其高致残率和死亡率使其成为一个严重的公共卫生问题[3,4]。值得注意的是,创伤是VTE的主要风险因素,其发病率因创伤类型和程度的不同而大相径庭,范围从3%到60%不等[5,6]。创伤后VTE的发病过程较慢,有些患者甚至在出现症状之前就因急性PE而突然死亡[7]。在创伤后与血栓栓塞相关的死亡案例中,死者体内可能检测到血栓的情况有多种:首先,血栓在创伤前就已经形成,随后创伤事件导致现有血栓脱落并引发致命的PE;其次,创伤促进了血栓的形成和发展,最终导致猝死;第三,两者之间没有直接的因果关系。不同情况对应着完全不同的病因解释和责任判定结论。因此,客观推断血栓年龄以明确其发生顺序和创伤事件成为法医学确定两者之间因果关系的关键科学依据,这直接关系到伤害参与度的评估和事故责任的判定[8]。
然而,血栓形成是一个动态的、持续进行的、极其复杂的生物过程,涉及血小板聚集、纤维蛋白沉积、炎症反应、血管内皮重塑和组织重构等多种变化[9,10]。正是这一过程的复杂性使得血栓年龄的准确推断成为巨大挑战。在法医学中,目前主要通过组织学[11]和免疫组化[12]来确定血栓年龄。然而,传统的组织病理学和免疫组化评估严重依赖于法医病理学家的主观经验,只能提供粗略的血栓年龄估计,无法满足法医实践所需的精确度要求。同时,涉及血栓栓塞的医疗纠纷日益增多,凸显了法医实践中精确血栓年龄的必要性。迫切需要一种快速、客观、定量的新方法来准确估计DVT的发展时间。
衰减全反射傅里叶变换红外光谱(ATR-FTIR)是一种基于红外吸收的分子光谱分析技术。通过检测样品中不同化学键对红外光的特征吸收,可以快速且无损地获得样品的化学成分信息,包括蛋白质(酰胺I、II)、脂质(C-H伸缩)、核酸(PO??伸缩)和碳水化合物(C-O、C-C振动)的二级结构[13,14]。该技术可以直接从分子层面反映血栓形成过程中的化学成分动态变化,为血栓年龄的客观推断提供了新的分析方向。近年来,ATR-FTIR在法医学领域得到了广泛应用,显示出在死亡时间估计[15]、受伤时间判定[16]、组织损伤评估[17]、生前和死后骨折鉴别[18,19]以及死因分析[20,21]方面的巨大潜力。
ATR-FTIR获得的光谱数据通常具有高数据维度、复杂信息和巨大信息量的特点。当传统的单一机器学习(ML)模型处理此类数据时,由于光谱与目标变量之间的非线性关系以及对噪声的敏感性,常常存在性能受限和稳定性不足的问题。集成学习(EL)通过整合具有互补特性的多个基础学习器,可以有效提高模型的整体预测性能和稳定性,减少单一模型偏差或过拟合带来的风险,从而在复杂数据建模中获得更可靠的分析结果[22,23]。现有研究结果证明了ATR-FTIR与集成学习的结合可靠性。熊等人[21]结合了来自六个器官的FTIR数据(代表七种不同的死亡原因),基于五种基础学习器和三种集成策略构建了一个多器官死亡原因鉴别模型,在测试集上取得了优异的性能(ACC=0.952,AUC=1)。余等人[18]使用ATR-FTIR和拉曼光谱数据以及软投票集成方法,以高精度识别了生前和死后骨折。这些发现表明,将ATR-FTIR与集成学习相结合可以显著提高复杂生物样本研究的鉴别能力和模型鲁棒性。
因此,本研究收集了不同时间阶段的DVT样本(血栓年龄:6小时、12小时、24小时、48小时、72小时、120小时、168小时、216小时、264小时、312小时),并使用ATR-FTIR光谱结合EL建立了一个血栓年龄预测模型。本研究需要解决的主要问题包括:(1)利用无监督主成分分析(PCA)揭示不同时间点血栓形成和组织的化学信息差异;(2)基于PLS、ElasticNet、RF、XGBoost和MLP构建并比较三种集成策略(平均、堆叠和投票)的最佳模型;(3)比较最佳集成模型与单一机器学习模型的预测性能,验证其在血栓年龄推断中的优势;(4)使用SHAP对最佳集成模型进行可解释性分析,筛选出最具代表性的血栓年龄预测关键成分。总之,本研究建立了一个高效且稳健的血栓年龄推断模型,为法医学中血栓年龄的客观判断和事故责任划分提供了新的技术手段。据我们所知,这是首次将ATR-FTIR光谱与EL结合用于血栓年龄研究的研究。
部分摘要
动物模型和样本制备
本研究中使用的实验动物为110只成年Sprague-Dawley雄性大鼠,体重在260至300克之间,来自重庆医科大学动物实验中心。所有动物均饲养在SPF设施中,并提供充足的食物和水源。实验方案获得了重庆医科大学动物伦理委员会(IACUC-CQMU-2025-0883)的批准,并严格遵守相关护理和使用指南的规定。
平均吸收光谱
图1A和B显示了不同血栓年龄样本在1800–900 cm?1波数范围内的平均吸收光谱及关键吸收峰的变化,表1显示了具体的峰分配和振动模式。
ATR-FTIR光谱分析结果(图1A)显示,早期和中期血栓(6–120小时)与晚期血栓(168–312小时)在许多光谱区间存在显著差异。早期和中期血栓的平均吸光度有所增加。
结论
准确估计血栓年龄对于解决医疗纠纷和法医鉴定致命性静脉血栓栓塞病例至关重要。在本研究中,我们构建了一个结合PLS和MLP的投票集成模型,在316小时内的血栓年龄推断中取得了R2=0.9557、RMSE=20.97小时、MAE=15.90小时的优异预测性能。与单一机器学习模型(PLS、ElasticNet、RF、XGBoost和MLP)相比,集成模型的预测能力更强。
作者贡献声明
钱学红:撰写——审稿与编辑、初稿撰写、软件开发、方法学设计。李英凡:初稿撰写、方法学设计、实验研究。魏蓓:初稿撰写、软件开发、实验研究。黄彦蕾:数据可视化、实验研究。傅瑶:实验研究、数据整理。马静:监督工作、数据整理。王宇森:实验研究、数据整理。邓世雄:监督工作、资源协调、资金争取。
作者声明
我们声明本手稿“利用ATR-FTIR光谱进行多模型集成学习以准确估计深静脉血栓年龄”是原创作品,此前未发表过,目前也没有其他地方正在考虑发表。
我们确认所有署名作者均已阅读并批准了本手稿,且没有其他符合作者资格但未列出的人员。我们进一步确认作者的顺序
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文的研究结果。
致谢
本研究的资金支持来自重庆市自然科学基金,资助编号为csct2021jcyj-msxmX0485。