《Forensic Science International: Genetics》:Exploring the efficiency of different sets of microhaplotypes for first to third degree kinships
编辑推荐:
微多态性(MHs)作为新型法医遗传标记,通过整合实证分型与大规模模拟验证,系统评估了202个MHs面板及四个历史面板(190/301/337/703 MHs)在第一至第三级亲缘关系鉴别中的性能。结果显示,202 MHs面板在第一、二级亲缘关系鉴别准确率均≥0.99,但对第三级关系准确率不足0.5,而337和703 MHs面板在第三级关系鉴别中表现更优。未来需结合其他遗传标记提升复杂亲缘关系的分析精度。
金晓叶|谭立帅|陈志|孟青珍|冯耀森|张琪|康克来|赵杰|孙静|吴宇恒|孙世尧|朱博峰|叶建|王乐
公安部法医科学研究所刑事遗传学重点实验室,中国北京100038
摘要
微单倍型(MHs)是一种短的多等位基因标记,具有高基因组丰度、低突变率以及在PCR过程中不会出现伪重复现象的特点。这些特性使得它们成为解决法医遗传学中复杂亲属关系的理想遗传标记。在本研究中,我们对181个家庭样本中的202个MHs进行了基因分型。通过将实测基因分型结果与大规模的计算机模拟相结合,我们评估了这些MHs识别一级、二级和三级亲属关系的能力。此外,我们还重新检验了之前选定的四组MHs(190个、301个、337个和703个),以确定它们在这些亲属关系类别中的有效性。结果表明,这202个MHs能够可靠地区分一级亲属与无关个体以及其他类型的亲属关系。而且,这些MHs在识别二级亲属与无关个体时的准确率也达到了≥0.99。相比之下,当累积似然比的分析阈值分别设为10^4和10^-4时,该工具识别三级亲属关系的准确率显著下降,低于0.5。另外四组MHs(190个、301个、337个和703个)在一级和二级亲属关系识别方面的有效性同样较高,准确率均≥0.99。对于三级亲属关系,随着微单倍型数量的增加,准确率也呈现出单调上升的趋势。具体而言,无论采用何种阈值,337个和703个MHs的组合都能正确识别大多数三级亲属对,表明它们适用于三级亲属关系的检测。总之,这202个MHs组成的工具在法医实践中可作为一级和二级亲属关系检测的高效工具。对于三级亲属关系的分析,建议使用包含337个或703个MHs的组。未来的工作应通过将MHs与其他类型的遗传标记结合,进一步提高分析性能,以应对更复杂的亲属关系问题。
引言
亲属关系分析是法医遗传学的重要组成部分,它能够帮助识别失踪人员、确认灾难受害者的身份,并确定与犯罪调查相关的嫌疑人,从而为案件调查提供关键线索[1]、[2]、[3]。短串联重复序列(STRs)仍然是法医科学中最广泛使用的遗传标记类型,常用于亲属关系检测。然而,由于法医STR位点的数量有限且突变率相对较高,这些标记在处理如姑侄或表亲等复杂亲属关系时信息量有限,往往无法做出明确分类[4]、[5]、[6]、[7]。单核苷酸多态性(SNPs)在人类基因组中普遍存在,其突变率远低于STRs,因此在法医亲属关系分析中具有明显优势。例如,赵等人基于BGISEQ-500RS平台开发了一个包含448个SNPs的检测方法,并通过模拟和真实家系数据证明,该方法的性能可与ForenSeq? DNA Signature Prep Kit相当,可用于二级亲属关系的推断[8];类似地,崔等人评估了包含1993个SNPs的检测方法,发现它能够区分不同的亲属关系,包括父母与子女、全同胞和二级亲属[9]。尽管如此,大多数SNPs是双等位的,导致其多态性低于多等位STRs。此外,刘等人利用SNP微阵列结合遗传算法评估了SNPs在从一级到七级亲属关系中的表现,发现二级亲属关系的绝对准确率远低于相对准确率(即正确分配到目标等级±一个等级的配对比例),表明SNPs难以高精度地确定具体亲属关系[10]。因此,迫切需要探索能够克服这些限制并提高法医亲属关系推断准确性的替代遗传标记。
微单倍型(MHs)最初由耶鲁大学的Kidd教授及其同事提出,是一类新型的法医遗传标记,定义为包含两个或更多紧密连锁SNPs的短DNA片段(200–300 bp)[11]、[12]。MH位点的等位基因状态对应于由其组成SNPs的特定单倍型,而一个群体中可能存在多种单倍型,从而比单独的双等位SNPs具有更高的遗传多态性。此外,MH位点的组成SNPs通常位于<300 bp的物理距离内,这种接近性有效抑制了减数重组;因此,完整的单倍型以单一、不重组的形式传递,确保了其在世代间的稳定遗传。由于MHs本质上是SNPs的单倍型组合,它们继承了SNPs的低突变率特性,特别适用于需要高区分能力和长期遗传稳定性的亲属关系分析。最近的研究也进一步证实了这些优势[13]、[14]、[15]、[16]、[17]。文等人通过挖掘先前报道的SNPs周围的区域构建了一个包含30个MHs的检测组合,发现这些MHs的有效等位基因数量(Ae)远高于其组成SNPs,从而提高了其在亲属关系检测中的实用性[16]。在另一项研究中,杜等人开发了一个包含188个MHs的多重检测组合,观察到83.36%的二级亲属关系被正确分类,而该组合在识别三级亲属关系方面的能力有限。他们的模拟进一步表明,当累积似然比(CLR)阈值设为10^4和10^-4时,分别需要约300个或700个MHs才能使二级和三级亲属关系的正确分类比例超过0.99[17]。总体而言,这些发现表明,在常规法医实践中,相对较少的MHs数量即可用于一级亲属关系的推断,而处理更远的亲属关系(如二级和三级亲属关系)则需要更大的MHs组合。此外,当似然比同时支持全同胞和半同胞关系时,增加MH位点的数量也可以提供额外的统计功效,以区分这些关系类别。
在我们之前的工作中,从1000 Genomes Project第三阶段发布的东亚人群全基因组数据中系统地选择了四组MHs。这些组合分别包含190个、301个、337个和703个MHs,其在东亚人群中的平均Ae值分别为5.61、6.30、7.39和5.38。所有这四组MHs都被证明在东亚人群的个体识别和亲属关系推断中具有足够的性能[18]。在此基础上,我们使用下一代测序(NGS)技术基于301个MHs构建了一个多重检测组合。经过严格的优化和验证,最终确定了一个包含202个高信息量MHs的检测组合。对819名无关汉族个体的基因分型结果显示,这些MHs的平均Ae值、预期杂合度、区分能力和排除概率分别为5.0039、0.7914、0.9232和0.5818。它们的综合区分能力和排除概率分别达到了1?3.2705×10^-232和1?6.4155×10^-7?,证明了该组合在汉族人群中的个人识别和亲子鉴定中的重要应用价值[19]。然而,这些MHs在不同亲等关系下的区分性能尚未得到系统评估。因此,本研究旨在(i)评估202个MHs组合在区分一级、二级和三级亲属关系方面的有效性;(ii)比较之前选定的四组MHs(190个、301个、337个和703个)在亲属关系推断中的性能。所得数据将为未来基于微单倍型的关系检测提供重要参考。
样本收集
样本收集
在充分披露研究目的并取得所有参与者的书面知情同意后,我们从7个扩展家系中的181名个体采集了口腔拭子样本。这些家系中包含241对一级亲属、241对二级亲属和214对三级亲属。详细分布情况见表1,相应的家系图谱见补充图1。研究方案如下:
测序结果
在本研究中,181个DNA样本在两条独立的测序通道上进行了测序;每条通道包含一个阳性对照和一个阴性对照。所有样本的测序指标见补充表3。两条通道的Q30得分分别为90.70%和90.65%,芯片产率为90.48%和89.93%,分型效率分别为98.21%和98.28%。所有指标均超过了平台的推荐阈值,表明两条通道生成的数据均足够用于...
讨论
作为一类新型遗传标记,微单倍型(MHs)结合了低突变率和高遗传多态性,在法医遗传学中越来越多地被用于个体识别、祖先推断、混合样本分离以及复杂亲属关系的解决[28]、[29]、[30]、[31]。在之前的工作中,我们根据严格的筛选标准选择了几组MHs用于个体识别和混合样本分离。
结论
在本研究中,我们对181个家系样本中的202个MHs进行了基因分型,并根据得到的基因型数据计算了亲属关系指数。实际数据与模拟数据的比较表明,202个MHs组成的检测组合在一级和二级亲属关系识别方面表现出较高的区分能力。当似然比阈值设为10^4和10^-4时,该组合在区分三级亲属关系方面的准确率约为0.42...
资助
本研究得到了中国国家自然科学基金(81971797)和中国公安部法医科学研究所(2024JB028)的支持。
作者贡献声明
朱博峰:写作 – 审稿与编辑、监督、项目管理、概念构思。
金晓叶:写作 – 初稿撰写、数据整理。
叶建:写作 – 审稿与编辑、监督、项目管理、概念构思。
谭立帅:写作 – 初稿撰写、软件开发、方法学设计。
王乐:写作 – 审稿与编辑、资源协调、项目管理、研究实施、资金筹集、概念构思。
陈志:方法学设计。
孟青珍:写作 –