DNA混合物统计解释:GHEP-ISFG工作组能力验证揭示PG软件应用现状与挑战
《Forensic Science International: Genetics》:Statistical interpretation of cases involving mixtures: A Spanish and Portuguese-Speaking Working Group (GHEP-ISFG) collaborative exercise
【字体:
大
中
小
】
时间:2025年11月01日
来源:Forensic Science International: Genetics 3.2
编辑推荐:
本文编辑推荐:面对日益复杂的法医遗传学样本,GHEP-ISFG工作组组织了涉及16个国家实验室的能力验证研究,通过分析30对模拟DNA混合物样本(来自PROVEDIt数据库),系统评估了概率基因分型软件(PGS)在LR计算中参数设置(如NoC、AT、θ值等)对结果的影响。研究发现不同实验室即使用相同基因型数据,因方法学差异(尤其是AT与NoC估计的交互作用)会导致LR值显著差异,凸显了专家培训和对统计模型深入理解对确保复杂DNA证据解释准确性的关键意义。
在当代法医科学实践中,DNA证据已成为刑事侦查和司法审判中不可或缺的关键要素。然而,犯罪现场提取的生物样本往往并非理想状态——它们可能是多个个体混合的产物,DNA含量极低,甚至存在不同程度的降解。这些复杂情况使得传统的基因分型解释方法面临严峻挑战。面对这一全球性难题,概率基因分型软件(Probabilistic Genotyping Software, PGS)应运而生,成为法医遗传学实验室处理复杂DNA混合物的有力工具。这些软件通过计算似然比(Likelihood Ratio, LR)来量化证据的权重,但不同实验室在参数设置、软件选择和解释标准上的差异,可能导致对同一份证据得出截然不同的统计结论。
为了解国际西班牙语和葡萄牙语地区法医遗传学实验室使用PGS的现状,国际法医遗传学学会(ISFG)下属的西班牙和葡萄牙语工作组(GHEP-ISFG)开展了一项大规模协同研究。这项发表于《Forensic Science International: Genetics》的研究,首次系统评估了不同实验室在处理复杂DNA混合物时的技术路线和结果变异性,为促进法医DNA证据解释的标准化和可靠性提供了重要见解。
本研究采用了协同能力验证(collaborative exercise)的研究设计,邀请了47个注册实验室中的16个完成全部分析任务。研究人员从公开的PROVEDIt数据库筛选了30对模拟案例,包括证据样本(DNA混合物)和对应的参考样本,涵盖了不同贡献者数量(NoC)、混合比例、降解程度和DNA模板量等变量。所有参与者使用统一的NIST高加索人群等位基因频率数据库,但可自由选择PGS工具(如EuroForMix、LRmix Studio、DNAStatistX等)和分析参数。通过标准化问卷和软件报告收集各实验室的参数设置方案和LR计算结果,进而进行系统性比较分析。
本研究的工作委员会在GHEP-ISFG第29次会议上成立并获得批准。参与实验室来自7个国家(阿根廷、西班牙、哥伦比亚、巴西、意大利、秘鲁),以公立机构为主。提供的30对模拟案例样本均选自PROVEDIt数据库,使用GlobalFiler?试剂盒扩增,在3500 Genetic Analyzer上检测。每对样本包括混合物谱图和参考谱图,并提供含人工峰(如stutter峰)和不含人工峰两个版本的文件供实验室选择。评估通过问卷和软件导出报告进行,重点关注各实验室的软件参数设置和LR计算结果。
尽管有47个实验室初始注册,但仅16个(34%)提交了结果,反映出实验室工作负荷对参与能力验证的制约。参与的15个实验室中,10个已至少验证并实施了一种PGS工具。使用的软件包括定性的LRmix Studio和定量的EuroForMix、DNAStatistX,处于不同的实施阶段(从已实施到近期无实施计划)。
各实验室在共祖系数(θ)、最低等位基因频率、drop-in频率和建模、dropout频率、分析阈值(AT)等参数设置上存在显著差异。例如,θ值有的实验室设为0,有的设为0.01或0.02;最低等位基因频率的计算方法也不统一;分析阈值从1 RFU到85 RFU不等。这些差异有些基于文献,有些基于实验室特定验证研究,还有些直接采用软件默认值。
在贡献者数量(NoC)估计上,实验室或通过经验输入固定值,或让软件测试不同NoC后选择最佳拟合。对于复杂样本(如低模板、降解DNA),NoC低估现象较为常见。在stutter峰和降解建模方面,大多数实验室选择分析无人工峰的文件,且多数情况下软件选择不建模stutter为最佳拟合。对于经过降解处理的样本,所有报告的LR均建模了降解。
LR值的分布显示,样本复杂性显著影响结果。更复杂的样本(结合了高度不平衡的贡献者比例、多个贡献者、DNase I降解和低DNA输入)产生更低、更分散的LR值。即使所有实验室接收相同的基因型数据,由于参数设置和方法学差异,导致了不同的LR值。最大的差异出现在分析阈值(AT)和NoC估计之间的相互作用上,当次要贡献者的等位基因与预期stutter位置重叠时,差异被放大。
实验室在解释LR值时应用了不同标准。例如,对于某些样本对,分配相似LR值的实验室可能得出"无法排除"、"无结论"或"可以排除"等不同结论。特别是当参考样本属于混合物的次要贡献者,且其等位基因与stutter峰位置重合时,结论的差异性更加明显。
本研究通过GHEP-ISFG协同能力验证,评估了法医遗传学实验室使用PGS的现状。尽管所有参与实验室都接收相同的基因型数据和等位基因频率数据库,但由于工具选择、参数设置和方法学差异,导致了不同的LR结果。对于更复杂的样本(如高度降解和低DNA模板),观察到的差异更为显著。
分析阈值(AT)和估计的NoC是影响结果差异的最关键因素,它们直接影响解释中包含的等位基因数量。当参考样本属于次要贡献者,且其等位基因与stutter峰位置重合时,LR差异可能被放大。
研究发现,PGS的熟练使用不仅需要操作经验,还需要持续的专业培训。随着PGS和解释指南的不断发展,持续教育对于保持高标准和减少错误至关重要。法医遗传学专家需要对PGS有深入理解,包括掌握支撑这些工具的统计模型和群体遗传学原理,以及准确设置参数和对结果的下游影响。
这项研究强调了在法医遗传学中持续专业发展的重要性,将专业发展作为质量保证的基本组成部分,使从业者能够正确解释和报告复杂DNA谱图分析结果。通过促进对PGS应用一致性的理解,本研究为提高法医DNA证据的可靠性和科学性做出了重要贡献。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号