综述:法医基因组学实施命名法的进展
《Spanish Journal of Legal Medicine》:Advances in nomenclature for the implementation of forensic genomics
【字体:
大
中
小
】
时间:2025年11月05日
来源:Spanish Journal of Legal Medicine
编辑推荐:
这篇综述系统评述了基于大规模平行测序(MPS)的法医基因组学商业平台与试剂盒,重点阐述了序列等位基因(SB)相较于长度等位基因(LB)在解决复杂亲缘关系中的优势。文章详细解读了国际法医遗传学学会(ISFG)关于STRSB等位基因命名的最新建议,包括最小序列范围(minimum range)的界定、关键生物信息学资源(FSSG、STRiDER、STRSeq)以及自动化命名工具(FDSTools、STRNaming、SID平台),为推动法医基因组学的全球标准化应用提供了重要指导。
摘要
本综述概述了基于大规模平行测序(MPS)的法医基因组学领域主要的商业平台和可用试剂盒。文章描述了不同的可能性与优势,例如,与毛细管电泳(CE)产生的基于长度(LB)的等位基因相比,基于序列(SB)的等位基因的定义提高了建立复杂亲缘关系的能力。近期,国际法医遗传学学会(ISFG)针对法医遗传学中最常用STR的序列等位基因命名提出了建议,其核心是定义一个最小序列范围。这使得跨试剂盒、软件和实验室统一结果成为可能,以便比较STR图谱和开发群体数据库。文中描述了用于此目的的三种基本生物信息学资源:(1)FSSG(法医序列结构指南);(2)STRiDER(ENFSI参考数据库身份识别STR);(3)STRSeq(STR测序项目)。此外,为了实现命名法的自动和一致应用,ISFG建议使用FDSTools软件和STRNaming工具,依据STR结构进行等位基因命名(例如,D13S317 CE11_TATC[12]AATC[1]ATCT[3])。然而,对于常规法医案例工作,使用简短、易于人工识别的序列代码将更有利于实验室间比较。在这方面,ISFG描述了SID(序列标识符)平台,该平台使用算法自动生成STR序列代码(例如,D13S317_11_IUSW)。尽管仍有更多工作待完成,但这是迈向法医基因组学全球实施的重要一步,理解它对于未来的进展至关重要。本综述旨在为实现这一目标贡献力量。
引言
在过去的几十年里,短串联重复序列(STRs)已成为人类身份识别的首选标记物,因为它们能够解决绝大多数亲缘关系和法医案例。使用STR的遗传分析基于PCR(聚合酶链式反应)扩增,随后进行毛细管电泳(CE),并通过多色荧光系统检测。CE根据不同STR等位基因的长度(以碱基对bp计)导致的迁移差异进行检测,长度取决于重复次数。因此,它们被描述为基于长度(LB)的等位基因,并用于命名STR等位基因。
大规模平行测序(MPS)作为法医基因组学平台的关键在于,它不仅能确定片段大小(bp),还能获取STR内部的核苷酸序列信息。换言之,MPS定义了基于序列(SB)的等位基因,这增加了STR可能等位基因和基因型的变异性。例如,对于LB等位基因,一个14/14纯合子可能由于SB等位基因内部序列的变化而实际上是一个14a/14b杂合子。这极大地增加了已评估这些基因组平台的人群中的等位基因多样性,从而提高了遗传证据的权重或统计价值。等位基因多样性越大,遗传系统的排除或区分能力就越强,通过降低随机匹配概率和提高法医案件及亲子或亲缘关系分析中的似然比(LR)来实现。STR的SB等位基因多样性的增加,对于提高解决失踪人员识别案件的成功概率有显著贡献,这一现象在拉丁美洲人群中日益普遍,而这些案件往往缺乏直接亲属进行比较,使得情况尤为复杂。
基因组平台便于同时分析额外的标记物。例如,Y染色体STRs(Y-STRs)由父亲传递给儿子,在涉及男女DNA混合的性侵犯案件中非常有用,因为它们仅显示男性图谱。它们还允许在父亲缺席的情况下,通过使用父系男性亲属(如叔伯、祖父、堂兄弟)作为参考来确定父子关系。X染色体STRs(X-STRs)也被包括在内,允许评估涉及至少一名女性的复杂亲缘案件,例如乱伦(父-女)、通过父系的全同胞或半同胞姐妹、祖母-孙女等。同样,基因组平台还包括单核苷酸多态性(SNPs),可提供身份识别(iiSNPs)、祖先渊源(aiSNPs)和表型(piSNPs,如眼睛、头发和皮肤颜色)信息。因此,世界各地的法医遗传学实验室已逐步将MPS平台整合到其常规工作中。
法医基因组学平台
在法医基因组学中有两种主要的MPS平台,它们共享几个共同的测序步骤。一种是Verogen-QIAGEN的MiSeq FGx,它使用合成测序(SBS)方法。另一种是Thermo Fisher Scientific的Ion Torrent,它使用半导体在测序过程中检测离子。关于这些及其他法医基因组学技术的细节,建议参考B?rsting和Morling于2015年的著作。
目前有各种各样的基于MPS的商业人类识别试剂盒可用,分析不同类型的标记物,如STRs(常染色体STRs、Y-STRs和X-STRs)、SNPs(iiSNPs、piSNPs和aiSNPs)以及线粒体DNA(mtDNA)。对于mtDNA,这可能涉及控制区的非编码区,这些区域是法医遗传学中传统分析的区域,也被描述为高变区(HVR-I、HVR-II和HVR-III)。最近,已经可以分析整个线粒体基因组。这些试剂盒大多使用MiSeq FGx平台,包括不同品牌,而Ion Torrent平台仅适用于同一品牌的MPS试剂盒。
国际法医遗传学学会(ISFG)关于通过大规模平行测序(MPS)分析的短串联重复序列(STRs)的建议
从法医遗传学到法医基因组学的转变带来了若干挑战,特别是在毛细管电泳(CE)获得的LB等位基因与SB等位基因的兼容性方面。这对于确定STR图谱是否相同是必要的,无论使用何种技术获得它。这也允许利用全球现有的包含刑事案件、失踪人员及其亲属等信息的数据库进行搜索。为此,ISFG于2016年发布了关于建立STR的SB等位基因最低命名要求的首批建议,这是确保实验室间兼容性,尤其是维持MPS生成的STR等位基因数据与CE获得数据共存的首项努力。最初的建议包括8个关键点,并告知法医界将在网上提供包含修订参考序列的文件。2024年初,ISFG发布了这些建议的更新,重点关注基于序列的STR等位基因命名。
最新的建议包括为每个STR基因座建立一个最小序列范围,这对于统一不同试剂盒、软件和实验室之间的结果至关重要,该范围将为了生物信息学和数据库目的保持不变。为了定义每个STR基因座的最小范围,ISFG旨在捕获片段的最大变异性,同时考虑重复基序和相邻SNPs,并期望所有法医基因组学试剂盒都遵循此命名法。Gettings等人(2024)的开放获取文章提供了确立ISFG最小范围所考虑标准的细节。
为了促进这种STR的SB等位基因命名法的普遍应用,ISFG向法医界提供了三种生物信息学资源:FSSG(法医序列结构指南)、STRiDER(用于ENFSI参考数据库身份识别的STR)和STRSeq(STR测序项目)。FSSG是一个Excel文件,包含ISFG最小范围参考序列,这些序列与GHR38基因组对齐,涵盖了法医实践中最常见的常染色体STRs、Y-STRs和X-STRs。FSSG经过整理的最新版本可在STRiDER网站上免费下载。
STRiDER最初报告用于法医解释的各种人群的常染色体STR等位基因频率,这些数据在经过质量控制后可在网站上获取,并获得参考编号。事实上,在ISFG认可的科学期刊(如《法医科学国际:遗传学》)上发表群体等位基因频率,必须在STRiDER上可用。这些质量控制步骤和参考编号的分配类似于YHRD对Y-STR标记的Y染色体单倍型数据库或EMPOP对mtDNA序列所应用的程序。随着2024年建议的发布,STRiDER还包括对MPS分析的STR数据库进行质量控制,然后才能在科学期刊上发表。
最后,STRSeq是一个序列目录,其数据来自对4500多个样本的测序研究,每个序列记录在GenBank中。数据被组织起来,可在BioProject STRSeq中查询。STRSeq分为几个类别:1)常用常染色体STRs,2)替代常染色体STRs,3)Y-STRs和4)X-STRs。每个类别又分为基因座特定的BioProjects,可以检查某个STR序列是否已被报道。GenBank中的序列是简单的序列文件,可以下载用于数据分析和比较目的。
用于SB(序列基础)等位基因命名法实际应用的软件
在法医分析中使用MPS获得STR序列时,需要用标准化的等位基因命名法来表示图谱。ISFG的最初建议(2016年)并未建立SB等位基因的通用命名法,因此可以分配代码(如CSF1PO 12a, 12b, 12c等)或使用描述STR内部结构并指明其相应CE等位基因数的命名法(例如,CSF1PO CE13_TCTA)。新的ISFG建议推荐第二种选项,使用在线软件STRNaming,该软件应用不同算法自动、一致地生成括号格式的等位基因名称,无需人工干预。
对于SB等位基因的指定,需要注意的是MPS为每个STR等位基因生成可变数量的序列读数;此外,结果可能受到stutter伪影出现的影响。这个问题促使了开发执行序列质量控制过程的计算机工具,即Forensic DNA Sequencing Tools,更广为人知的是FDSTools,其执行以下一般功能:1)表征和校正由PCR干扰或其他测序错误引起的测序数据噪声;2)将测序数据可视化为完整图谱;3)在具有用户可定义阈值的图表和表格中过滤数据。例如,定义序列数的阈值,以确定是真实等位基因还是stutter,这对于区分真实杂合子与纯合子以及分析DNA混合物至关重要。除了可访问和免费外,FDSTools可通过Python包索引获得,可以手动安装或使用命令'pip install fdstools'。FDSTools的新版本2.0现在包含了STRNaming,简化了命名SB等位基因的配置标准。
STRNaming的在线版本仅限于法医中最常用的STRs,并预装了它们的基因组坐标。输入序列非常简单,仅包括标记名称和一个序列,用空格、逗号或分号分隔。序列必须排除扩增引物(PCR),并精确限制在相应基因座的ISFG最小序列内,因为包含哪怕一个额外的核苷酸都会产生不同的结果,从而妨碍实验室间基因组图谱的正确比较。在某些情况下,结果中括号内的重复基序可能包含额外的相邻核苷酸。
然而,对于常规法医工作,使用尽可能短的(便于人工阅读的)序列代码更为实用,便于实验室间比较通过MPS获得的完整STR图谱。虽然这可以通过生成STR序列代码库来解决,但最有效的选择被视为一种能为序列(输入)生成代码的算法。在这方面,ISFG描述了但未推荐(由于潜在的许可限制)SID(序列标识符)平台。从STR序列得到的SID结果中,ISFG建议取前四个字母来命名等位基因,这应能命名法医中最常用STR的所有SB等位基因。需要注意的是,用于命名等位基因的字母数在高度多态性的STR中可能增加到5个;相反,对于SB等位基因数量较少的等位基因,3个字母可能就足够了。
挑战与局限性
建立SB等位基因的通用命名法是法医基因组学的一项重大进展,因为它能够对基因组图谱进行一致的比较,并便于创建包含此信息的数据库以供将来使用。然而,将其整合到法医实验室的日常工作中并真正对人类识别产生影响还面临若干挑战。例如,必须扩大法医遗传学家的生物信息学培训,使他们能够获取和比较基因组图谱,并确定实验室内外获得的图谱之间的匹配。SB和LB等位基因之间的兼容性将有助于利用现有的包含约1亿个STR图谱的数据库。然而,挑战在于修改这些数据库或创建能够整合和查询SB图谱的新平台,特别是在LB等位基因图谱匹配时。对于解释,可用的LB等位基因频率可用于为SB图谱生成初步的似然比(LR)值,正如对ForenSeq试剂盒中7个X-STRs所建议的那样,其中的挑战将是生成新的群体数据库,特别是用于估计稀有SB等位基因的频率。经济问题也应被提及,因为成本效益比取决于实验室常规处理的案件类型。绝大多数法医和亲缘案件使用传统方法(PCR-CE)已能成功解决。然而,投资MPS平台和消耗品以获得SB图谱超出了大多数法医遗传学实验室的预算,尤其是在拉丁美洲。
结论
简而言之,ISFG关于通过MPS分析的STR等位基因命名的最新建议,使得使用前述生物信息学资源(FSSG、STRiDER、STRSeq、FDSTools-STRNaming和SID)来命名SB等位基因变得更加容易。只要使用ISFG的最小范围进行等位基因命名,它们还使得未来能够在试剂盒、平台和实验室之间进行比较。虽然这是迈向法医基因组学全球实施的重要一步,但在解释和其他技术问题方面仍然存在挑战,包括对伪影(如stutter)的评估、确定群体数据库的适当样本量以及估计稀有STR等位基因的频率。最初,传播这些信息将极大地有助于扩大其在身份识别方面的影响,本综述的目的即在于支持这一点。
资助
作者感谢CONAHCyT为项目286623提供资助,H. R-V用于墨西哥人群的法医基因组学研究,以及M.E. G-A获得博士后奖学金(编号664279)。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号