《Forensic Science International: Genetics》:Making AI accessible for forensic DNA profile analysis
编辑推荐:
本研究提出基于U-Net架构的DNANet模型,利用实际案件中的电泳图谱标注数据训练,实现 alleles的自动化识别。在未参与训练的案例数据和独立混合数据集上,DNANet达到F1分数0.971和0.982,与人工标注性能相当。研究验证了标准架构和实际标注数据的可行性,并公开了代码、模型权重和测试数据,为降低AI在法医DNA分析中的应用门槛提供支持。
阿贝尔·KJG·德·维特(Abel KJG de Wit)|克莱尔·D·瓦赫纳尔(Claire D Wagenaar)|娜塔莉·AC·詹森(Nathalie AC Janssen)|布雷赫特耶·霍根(Brechtje Hoegen)|朱迪思·范德·韦特林(Judith van de Wetering)|胡布·霍夫斯(Huub Hoofs)|西蒙妮·阿里恩斯(Simone Ari?ns)|科琳娜·CG·本肖普(Corina CG Benschop)|罗尔夫·JF·伊普马(Rolf JF Ypma)
荷兰法医研究所数字与生物特征痕迹部门
摘要
深度学习有潜力成为自动化法医DNA分析中等位基因识别的强大工具。迄今为止的研究依赖于定制的模型架构和繁琐的手动注释来训练模型,这使得其他研究人员难以使用这些技术。
在这项研究中,我们探讨了使用案件工作中收集的数据来训练性能良好的模型的可能性,并采用了广泛采用的U-Net架构。在这种方法中,注释是根据案件工作中识别的等位基因创建的。然后,该模型(称为“DNANet”)将电泳图(EPG)中的每个扫描点分类为等位基因或非等位基因,这建立在计算机视觉中的分割任务基础上。我们使用分析师的注释作为真实值,评估了该模型在未见过的案件数据和独立混合研究数据上的性能。此外,我们还将DNANet的性能与分析师在研究数据上的表现进行了比较,以实际供体等位基因为真实值。
DNANet在未见过的训练案例数据上的分析师注释等位基因上的F1分数为0.971,在研究数据上的F1分数为0.982。在实际供体等位基因上,DNANet的F1分数为0.962,与从分析师注释计算出的F1分数相当。
我们的结果表明,DNANet的性能与标准程序下的人类注释相当。这表明使用标准数据和架构可以获得良好的结果。未来的工作可能会集中在数据、注释或模型架构的哪些方面对性能至关重要。我们公开提供了我们的代码、模型权重和研究数据,以帮助社区。最后,我们呼吁建立一个标准化的基准,以帮助进行等位基因识别系统之间的定量比较。
引言
机器学习方法,特别是深度学习方法,是法医DNA分析中等位基因识别任务的一种有前景的技术[1]、[2]、[3]、[4]、[5]、[6]、[7]、[8]、[9]、[10]。传统的电泳数据分析方法通常依赖于手动检查和基于规则的系统,这可能耗时、容易出错,并可能导致分析师之间的不一致。相比之下,深度学习模型可以直接从原始数据中学习复杂模式,从而实现更快和更一致的结果。
尽管深度学习在法医DNA分析中的等位基因识别方面具有潜力,但相关论文仍然局限于某个小组的开创性工作。泰勒(Taylor)等人引入了一个由十个独立神经网络组成的系统,每个网络专门用于一个特定的染料泳道或位点,将电泳图信号分类为等位基因、抖动(stutter)、上升峰(pull-up)和基线噪声等类别[2]、[3]。这种模块化设计是为了考虑特定位点的信号行为,但它也分割了学习过程,并需要跨网络进行冗余训练。后来的改进导致了一个统一的多头卷积神经网络的出现,该网络可以在染料泳道之间共享早期特征表示,同时分支出专门的输出[1]。这个模型表现得非常出色,同时放弃了传统的逐级过滤方法,后者使用一个宽度为200个扫描点的单一过滤器来学习更高阶的结构。所有这些模型都依赖于对数百个样本的手动注释,指定扫描点属于八个类别之一(基线、等位基因、上升峰和五种抖动类型)。手工制作的流程和手动注释的结合使得这些模型难以扩展或复制,尤其是在这个领域数据往往过于敏感的情况下。
在这项工作中,我们研究了两种简化方法。首先,我们使用U-Net架构作为我们模型的基础[11]。这种架构在(生物医学)图像分割任务中非常普遍[12]、[13]。分割涉及为连续输入的每个部分分配一个类别标签——例如为图像中的每个像素或信号中的每个数据点标记标签。在DNA分析的背景下,分割就是将单个EPG扫描点分类为等位基因的一部分。其次,我们依赖于案件工作中收集的数据,即识别出的等位基因。因此,我们避免了之前使用的对各种形式的抖动和上升峰进行分类的中间步骤,从而大大降低了开发深度学习方法的门槛。然而,这也意味着模型可学习的信息量减少了。
本研究描述了我们的深度学习模型“DNANet”的开发和性能评估,并讨论了未来研究的方向。代码、模型权重和研究数据已公开提供,以帮助希望开发或评估法医DNA分析中深度学习的实验室。
章节片段
分割
计算机视觉中的一个通用任务是自动确定图像中感兴趣的对象的位置。这个任务被称为分割。分割的应用范围从医学图像中肿瘤细胞的定位到自动驾驶车辆的对象检测。在法医领域的一个应用示例是自动找到感兴趣的痕迹,例如显微镜图像中的纤维(见图1)[14]。
从电泳图中识别等位基因可以
数据
本研究使用的数据集来自两个来源:案件工作和研究数据。所有数据都是PowerPlex? Fusion 6(PPF6C)样本。案件数据用于训练和评估DNANet。研究数据作为独立数据集用于额外测试,并已在线发布。
案件数据反映了实际法医实践中遇到的多样性和复杂性,包括贡献者数量的变化、混合比例、降解、伪影等。
结果
为了更好地理解DNANet的输出,图4展示了研究数据中两个不同样本的两个位点的输出(完整输出见图S1和S2)。可以看出,DNAN会为每个扫描点计算一个0到1之间的分数,表示该扫描点是否是等位基因的顶部。在我们的方法中,高于0.5的预测将导致识别出等位基因。我们发现,DNAN通常为等位基因输出接近1的分数,否则输出接近0。
讨论
在这篇手稿中,我们展示了如何使用标准模型架构和在标准案件工作中获得的带注释的数据来训练一个性能良好的AI模型进行等位基因识别。该模型“DNANet”能够学习分析师的注释模式,并显示出与这些分析师相当的性能。我们已将模型权重、源代码和研究数据公开提供。
尽管我们已经证明简单的U-Net在法医DNA分析中表现良好,但更合适的
结论
在这篇手稿中,我们展示了如何使用标准模型架构和案件工作中获得的数据和注释来创建一个性能良好的AI模型进行等位基因识别。我们希望这一发现,加上公开提供的代码、模型权重和示例研究数据,能够降低其他人从事该领域AI应用的门槛。
该模型目前还不适合用于案件工作。剩余的工作包括:确保在“明显”的高Rfu等位基因峰上不会发生错误
CRediT作者贡献声明
娜塔莉·AC·詹森(Nathalie AC Janssen):写作——审稿与编辑、软件。克莱尔·D·瓦赫纳尔(Claire D Wagenaar):写作——审稿与编辑、可视化、验证、软件、方法论、调查、数据管理、概念化。阿贝尔·KJG·德·维特(Abel KJG de Wit):写作——审稿与编辑、初稿撰写、可视化、软件、调查、形式分析、概念化。罗尔夫·JF·伊普马(Rolf JF Ypma):写作——审稿与编辑、初稿撰写、监督、软件、方法论、调查、概念化。科琳娜·CG
写作过程中生成式AI和AI辅助技术的声明
在准备这项工作时,作者使用了chatGPT来帮助构建学术英语句子。使用该工具后,作者根据需要审查和编辑了内容,并对出版物的内容负全责。
致谢
我们感谢{Name}提供的富有洞察力的讨论和有用的建议,感谢[Name]分享数据提取脚本,感谢[Name]和[Name]在模型和数据格式方面的帮助,以及感谢[Name]在样本技术解释方面的帮助。