编辑推荐:
在法医 DNA 分析中,基于毛细管电泳(CE)的短串联重复(STR)分析面临挑战,样本产生的人为信号干扰等位基因解读。研究人员用五种传统机器学习算法构建模型。结果显示模型可行但混合样本需优化,还开发了平台。这提升了分析效率,为后续研究奠基。
在法医领域,DNA 分析一直被誉为 “黄金标准”,它为无数案件的侦破提供了关键线索。其中,短串联重复(STR)凭借其在人群中广泛分布和高度的遗传多态性,成为法医调查程序中的核心遗传标记。在利用 PCR 扩增结合毛细管电泳(CE)进行 DNA 检测时,从 DNA 提取、分离、量化,到 STR 扩增、CE - 基于 STR 片段检测,再到最终对原始电泳图(EPG)数据的分析与解读,每个环节都至关重要。然而,在 EPG 数据分析过程中,却常常受到两类错误的干扰。
假阴性结果(Type II 或 β - 错误),也就是在 DNA 分析中未能检测到等位基因,这让一些关键线索从法医的眼皮子底下溜走。为了应对这一问题,科学家们绞尽脑汁,不断提升 DNA 检测的灵敏度。对于低模板 DNA 这类挑战性样本,分析师们甚至降低分析阈值,期望能捕捉到那些原本因未达阈值而被忽视的等位基因信息。但这又带来了新的麻烦 —— 假阳性(Type I 或 α - 错误),即非等位基因信号被误判为等位基因。这些错误信号来源广泛,PCR 过程中产生的诸如 stutter(一种常见干扰,会使 DNA 分型解读变得复杂,尤其是在 DNA 混合物图谱中)、非模板依赖性核苷酸添加、非特异性扩增产物,以及仪器产生的尖峰、基线升高、光谱分离不完全导致的 pull - up(一种信号干扰,一个染料的信号渗入另一个染料的检测通道,严重影响分析结果的准确性)或 bleed - through 等,都可能导致误判。即便常用的专家 EPG 读取系统,如 GeneMapper?,具备内置算法来过滤 stutter 和通过光谱校准机制去除 pull - up,但面对低模板或混合样本时,仍有部分人为信号难以区分,需要分析师手动处理,这不仅耗时费力,还容易受到个人主观因素的影响,导致结果不准确。
为了解决这些棘手的问题,让法医 DNA 分析更加精准高效,来自未知研究机构的研究人员开展了一项意义重大的研究。他们将目光投向了人工智能(AI)技术,尤其是传统机器学习算法。在众多机器学习算法中,随机森林(RF)、逻辑回归(LR)、高斯朴素贝叶斯(GNB)、支持向量机(SVM)和多层感知器(MLP)这五种算法脱颖而出,被研究人员选中用于构建模型。研究人员的目标是利用这些算法,对来自单源低模板 DNA 样本和 DNA 混合物这两种挑战性样本的 EPG 信号进行精准分类,将其准确识别为等位基因、前向 stutter、后向 stutter 或 pull - up。经过一系列的研究,研究人员发现,除了 GNB 模型外,其他模型在提升 EPG 中潜在信息的可报告性方面都展现出了一定的可行性。通过对四种信号(等位基因、后向 stutter、前向 stutter 和 pull - up)的预测概率分布进行分析,研究人员还发现,实施受试者工作特征(ROC)曲线分析和预测概率阈值设定,能够有效降低误判情况的发生。此外,研究人员还开发了一个基于机器学习和集成学习的用户友好型 EPG 信号分类平台,这个平台能够使用传统机器学习模型对任何信号数据集进行分类,并综合多个模型的预测结果,为分析师提供更优化、更可靠的分析结果。
这项研究成果发表在《Forensic Science International: Genetics》上,具有不可忽视的重要意义。它为法医 DNA 分析领域注入了新的活力,极大地提升了样本分析和解读的效率,让法医在面对复杂样本时能更准确地获取关键信息,为案件侦破提供更有力的支持。同时,也为后续相关研究奠定了坚实的基础,指引了新的研究方向。
在研究方法上,研究人员收集了 27 个单源低模板对照 DNA 9947A 样本(模板量在 7.8125 pg 到 31.25 pg 之间)和 11 个实际案例中的两人 DNA 混合物样本的原始 EPG 数据。随后,对五种机器学习算法进行超参数调整,确定每个模型的最优设置。
研究结果方面,在模型构建与性能评估环节,研究人员分别用五种算法对单源低模板 EPG 信号、混合 EPG 信号和组合数据集进行模型训练与构建。结果显示,除 GNB 外,其他模型在提升 EPG 潜在信息报告性上具有可行性。在预测概率分析部分,通过分析四种信号的预测概率分布,研究发现实施 ROC 曲线分析和预测概率阈值,能有效降低假阳性分类。在平台开发成果上,研究人员成功开发出基于机器学习和集成学习的 EPG 信号分类平台,可对各种信号数据集分类,并综合多模型预测结果。
研究结论和讨论部分指出,机器学习在 DNA 分析复杂数据分类中前景广阔,能辅助决策、减少人为主观性。本研究中五种传统机器学习算法构建的模型,在处理不同类型 EPG 信号时展现出一定的可行性,但针对混合 EPG 信号的分类准确性还有提升空间。这一研究成果为法医 DNA 分析提供了新的思路和方法,有望推动该领域朝着更精准、高效的方向发展。