《Forensic Science International》:Unsupervised machine learning approach for the detection and interpretation of key features in drip patterns Authors: SMP,
编辑推荐:
无监督机器学习结合SHAP分析用于血迹滴落模式分类,通过398个实验室生成的滴血样本提取7个可观测特征(如圆形度、平均强度、面积),验证传统分类体系的有效性,并揭示特征贡献度(圆形度60%、平均强度28%、面积28%)。
斯坦纳德·M·帕乔恩(Stanard M. Pachong)|艾娜兹·阿拉维(Ainaz Alavi)|沙伊吉尼·卡南(Shaijieni Kannan)|特蕾莎·斯托茨伯里(Theresa Stotesbury)|彼得·R·刘易斯(Peter R. Lewis)
安大略理工大学商学院与信息技术学院,加拿大奥沙瓦市2000 Simcoe街北
摘要
血迹图案分析(Bloodstain Pattern Analysis, BPA)正逐渐转向更加客观的图案分类方法。这一转变涉及使用图像处理技术来提取可观察的血迹特征作为分类数据。本文探讨了如何设计基于无监督机器学习(Unsupervised Machine Learning, ML)的框架,以识别血迹图案中的可观察特征,研究从基本的滴落图案开始。共分析了398个实验室生成的滴落图案,这些图案的滴落高度在25至100厘米之间,滴液数量从1到10个不等。提取的可观察特征包含了法医分析中常用的血迹属性,如大小和形状,因此与先前的定性属性和现有的血迹分类体系保持一致。为了评估特征的重要性,应用了SHAP(SHapley Additive Explanations)分析方法,根据特征对模型预测的贡献程度对其进行排序。结果表明,在排除滴落高度和滴液数量后,圆形度、平均强度和母血迹面积这三个特征对区分滴落图案的贡献度分别达到了60%、28%和28%。这种基于无监督ML的方法在为基于图像处理的血迹图案分类方法建立特征标准方面展现出巨大潜力。
引言
血迹图案分析(BPA)整合了数学、生物学和物理学等多学科原理,强调基于分类体系的血迹及血迹图案分类。该方法考虑了单个或一组血迹的物理特性,如大小、形状以及母血迹周围的卫星血迹分布[1],同时还考虑了产生这些血迹的具体机制。传统上,BPA依赖于专家使用既定分类体系进行手动分析,将血迹分为被动血迹(受重力影响)、飞溅血迹(受外力影响)、转移血迹(接触传播)和改变血迹(受环境因素影响)等类别[1]、[2]。然而,这一过程中的人为干预可能会引入主观性和偏见,从而影响分析结论[3]。血迹图案分析的客观性需要标准化和系统化的解释方法[4]、[5]、[6]、[7]。
近年来,数字化图像处理的进步使得能够从血迹中提取最具信息量的特征。例如,Fiji(Image J)等软件被广泛用于分析血迹的数字表示[8]、[9]。虽然这些方法能有效提取每个图案中单个血迹的可观察特征,但它们通常需要人工输入,这既耗费时间,也可能无意中重新引入主观性和偏见。机器学习(ML)模型正逐渐成为血迹分类的另一种方法,尤其是使用监督学习模型[10]、[11]、[12]、[14]。监督学习模型在实施上更加清晰,因为它们依赖于标记数据。然而,这种方法依赖于现有的分类体系。莫林森(Morrinson)等人提倡采用更强有力和更有意义的验证标准来提高法医方法的可靠性[15]。无监督数据驱动的ML模型为解决BPA问题提供了一个有前景且具有挑战性的替代方案,因为它们可以直接从图案中学习,而不受历史分类体系的限制。这种方法的主要缺点是,许多常见的无监督ML模型可以被归类为“黑箱”模型,即内部运作机制不易解释的模型[16]。在医疗保健和法医调查等关键领域,透明度和可解释性对于决策和问责至关重要。因此,测试无监督ML方法在BPA中的应用基础非常重要。哈马德(Hamadeh)等人结合主成分分析(PCA)和线性判别分析(LDA)来区分运动前后形成的血迹[17],而乔瓦尼(Giovani)等人使用基于密度的空间聚类(DBSCAN)模型来提高BPA的客观性和效率[18]。在探讨不同类型图案的分类模型之前,我们首先研究了结合可解释SHAP(SHapley Additive Explanations)技术的无监督ML方法的适用性,以确定这些技术是否能够识别出在不同滴落高度和体积下形成的滴落图案中最重要的特征。我们选择这种图案类型进行分析,是因为它在多种条件下都具有非常清晰且易于观察的特征[8]、[19]。从我们的滴落图案数据库中,我们识别并提取了单个图案的可观察特征,然后设计了一个基于ML的框架来选择最重要的特征,最后分析了每个簇之间的差异。结果以图案聚类和最具影响力特征的排名形式呈现。最后,结论强调了这项工作的创新性,表明所使用的方法不仅支持现有的滴落图案分类方法,还通过纳入额外的不可观察特征来对其进行改进。此外,我们还讨论了这种方法的研究局限,并提出了进一步发展的潜在方向。
血源
所有图案均使用全牛血在实验室中生成。血液收集在含有12.5%体积百分比柠檬酸葡萄糖抗凝剂的Nalgene瓶中以防止凝结[20]。实验前,血液被储存在冰箱中并加热至37 ± 1°C,以模拟体内血液的温度[21]。血液在收集后最多可使用约50小时[20]。
滴落图案的创建与收集
图案是在36英寸×50磅的纸张表面上创建的(具体尺寸如下:滴液1-5个时为30厘米×45厘米;滴液6-10个时为60厘米×45厘米)
结果
如2.2节所述,所提出的基于ML的框架被应用于实验室生成的398个滴落图案。利用领域知识和先前研究的见解,确定了每个图案中需要提取的相关可观察特征,并将其输入模型。聚类模型根据特征之间的相似性自动对图案进行分组。
结论
基于机制的分类体系仍是法医BPA中最广泛使用的图案识别方法。然而,无监督ML作为现代BPA的分类体系,旨在对血迹图案进行分类和分析,尽管两者在方法、客观性和适应性方面存在差异。在传统的分类体系中,专家手动定义关键特征,如大小、形状和卫星血迹的分布[1]。本研究中识别出的可观察特征与现有的识别系统一致并为其提供了支持。
CRediT作者贡献声明
彼得·刘易斯(Peter Lewis):撰写 – 审稿与编辑、监督、项目管理、调查、资金获取、概念构思。
沙伊吉尼·卡南(Shaijieni Kannan):撰写 – 审稿与编辑、初稿撰写、可视化、方法论设计、调查、数据分析、数据管理。
特蕾莎·斯托茨伯里(Theresa Stotesbury):撰写 – 审稿与编辑、可视化、监督、项目管理、调查、数据分析、概念构思。
斯坦纳德·帕乔恩(Stanard Pachong):撰写 – 审稿与编辑、初稿撰写。
利益冲突声明
作者声明没有已知的财务或个人利益可能影响本文的研究工作。
致谢
本数据集的创建得到了New Frontiers in Research Fund-Exploration Program的支持,该项目授予了作者TS和PL(NFRFE-2022-00682)。我们还要感谢Emily R. Jaeger和Keegan G. Hirst在图案创建方面提供的帮助。