基于长程PCR和纳米孔测序的变异定位与定相:一种可临床实施的端到端工作流程
《BMC Medical Genomics》:Long-range PCR and Nanopore sequencing for localisation and phasing variants: an end-to-end clinical application workflow
【字体:
大
中
小
】
时间:2025年11月20日
来源:BMC Medical Genomics 2
编辑推荐:
本研究针对短读长测序在远距离变异定相和高同源性区域分析中的局限性,开发并验证了一种结合长程PCR和靶向纳米孔测序的端到端工作流程。该方案成功实现了对相距高达~20 kb的变异进行100%准确的定相,并在低可映射性基因区域实现了精准的变异定位(精准度和灵敏度均为1),为中通量临床诊断提供了可靠、经济的解决方案。
在精准医疗的时代,下一代测序(NGS)技术,特别是全外显子组测序(WES)和全基因组测序(WGS),已经成为临床诊断不可或缺的工具。然而,基于短读长(SRS)的NGS技术存在一些固有的局限性,这给遗传病的精准诊断带来了挑战。其中两个突出的问题是:难以确定相距较远的基因变异是否位于同一条染色体上(即定相,Phasing),以及难以准确分析基因组中那些序列高度相似、难以唯一比对的区域(低可映射性区域)。定相对于判断两个杂合变异是分别来自父母双方(反式,trans,即复合杂合)还是来自同一方(顺式,cis)至关重要,这直接关系到常染色体隐性遗传病的诊断。当无法获取父母样本进行验证时,或者当其中一个变异是新发突变时,定相就显得尤为关键。而低可映射性区域,如假基因或重复序列区域,短读长往往无法准确比对,导致变异检测出现假阳性或假阴性,通常需要像Sanger测序这样的辅助技术来确认,但Sanger测序本身在这些区域也面临引物设计困难等问题。
近年来,长读长测序(LRS)技术的出现,特别是其测序读长长、能够跨越复杂区域的优势,为解决上述问题带来了曙光。牛津纳米孔技术(Oxford Nanopore Technologies, ONT)因其高准确性、可扩展性和相对低廉的成本,尤其是在使用其小型化Flongle流动槽进行靶向测序时,为开发经济高效的临床检测方案提供了可能。然而,将长读长测序应用于临床诊断仍面临挑战。其中,长程PCR(LR-PCR)是获取长片段DNA靶标的关键步骤,但如何优化LR-PCR以获得高成功率、同时最大限度地减少PCR过程中产生的嵌合读段(一种将不同模板序列错误连接的人工产物)至关重要,因为嵌合读段会严重影响定相的准确性。
为此,由Javad Jamshidi和Tony Roscioli领导的研究团队在《BMC Medical Genomics》上发表了一项研究,旨在开发并验证一个稳健、端到端的临床诊断工作流程,该流程整合了优化的LR-PCR、靶向ONT测序以及自动化的生物信息学分析,专门用于解决变异定相(最远可达约20 kb)和低可映射性区域变异定位的临床需求。
为开展研究,研究人员首先使用参考样本NA24385(HG002)的DNA,系统比较了四种商业化的LR-PCR试剂盒在扩增1至22 kb长度靶标时的性能。随后,他们采用表现最佳的试剂盒,对包含已知相位关系的杂合单核苷酸变异(SNV)对和小插入缺失(Indel)的靶区域进行扩增。扩增产物经过条形码标记后,在ONT Flongle流动槽上进行 multiplexing(最多8个扩增子/流动槽)测序。研究团队还专门开发了一套生物信息学流程,该流程能够进行质量控制、识别嵌合读段、利用Clair3进行变异 calling,并整合WhatsHap和HapCUT2进行定相分析。此外,他们还评估了该方法在数个低可映射性基因(如TUBB2A, TUBB2B, CYP11B1等)中检测SNV和小的Indel的准确性,并与GIAB(Genome in a Bottle)基准真相数据进行比对。
本研究核心方法包括:1) 使用参考DNA样本NA24385(HG002);2) 系统评估并优化长程PCR条件,筛选出最佳试剂盒;3) 对扩增产物进行条形码标记,并利用ONT Flongle流动槽进行靶向长读长测序;4) 开发自动化生物信息学流程,整合了读长过滤、嵌合读段评估、变异调用(Clair3)和定相分析(WhatsHap, HapCUT2)等模块。
在测试的四种PCR试剂盒中,UltraRun LongRange PCR Kit表现最佳,对1-22 kb的10个靶标成功扩增了9个(成功率90%)。Platinum SuperFi II和LongAmp Taq成功率均为70%(10个中的7个),而Q5 Hot Start High-Fidelity仅成功4个。因此,UltraRun LongRange PCR Kit被选为后续实验的优选方案。所有专门为定相设计的10对引物均成功扩增了目标区域。
研究人员对15对杂合SNV(变异间距离5.8至21.4 kb)和10个小Indel进行了定相分析。结果显示,所有变异对的定相结果与已知相位均100%一致。即使将高质量读长数下采样至50条,定相准确性仍未受影响。图1通过IGV(Integrative Genomics Viewer)截图直观展示了B7扩增子中两个变异(chr21:42,372,760 C>T 和 chr21:42,387,895 A>C)被正确判定为顺式(cis)关系。
对六个低可映射性基因(TUBB2A, TUBB2B, CYP11B1, SBDS, HBA1, HBA2)的扩增子测序数据进行分析,所调用出的SNV和小的Indel(共64个变异)与GIAB基准真相数据相比,精准度(Precision)和灵敏度(Sensitivity)均达到1。图3通过对比短读长WGS和长读长扩增子测序在TUBB2A基因上的表现,清晰展示了长读长测序在低可映射性区域避免假阳性呼叫的优势。
在优化的PCR条件下(UltraRun LongRange PCR Kit, 26个循环),15个定相扩增子中嵌合读段的比例中位数为2.80%(范围1.79%-16.12%)。对比实验表明,使用Platinum SuperFi II试剂盒(26循环)或将UltraRun循环数增加至28循环,均会显著提高嵌合读段的比例(图2)。
本研究成功开发并验证了一个集成的、端到端的临床诊断工作流程,该工作流程通过优化的长程PCR、靶向纳米孔测序以及定制化的生物信息学管道,实现了对相距高达约20 kb的变异进行精确可靠的定相,并能在短读长测序技术表现不佳的低可映射性基因组区域进行准确的变异定位。
研究的核心意义在于其临床适用性。首先,对于常染色体隐性遗传病的诊断,准确判断基因上两个杂合变异的相位(是复合杂合还是顺式排列)是明确致病性的关键。本工作流程仅需先证者DNA即可直接完成定相,在无法进行父母验证或存在新发突变的情况下尤显重要。其次,该流程为验证在低可映射性区域(如与假基因高度同源的基因)检测到的变异提供了强有力的工具,避免了假阳性结果,提高了诊断的准确性。与成本高昂的长读长全基因组测序或操作复杂的cDNA测序相比,该靶向方案更具成本效益和操作简便性,非常适合作为WES或WGS之后的“二级”验证检测,用于澄清意义未明的变异(VUS)或确认低质量测序区域的发现。
该方法也存在一些局限性。例如,长程PCR并非对所有基因组区域都能100%成功扩增,某些高GC含量或具有复杂二级结构的区域可能仍需进一步优化。嵌合读段的比例虽然总体可控,但在个别扩增子中可能较高,需在诊断应用中设定明确的质量控制阈值。此外,该流程主要针对SNV和小的Indel,对于结构变异或短串联重复序列(STR)的检测能力有限,且纳米孔测序在均聚物区域的 indel 检测错误率相对较高。
尽管如此,这项研究为分子诊断实验室提供了一套切实可行的解决方案。其严谨的优化过程(从试剂盒比较、PCR条件摸索到生物信息学管道的开发)、对关键影响因素(如嵌合读段)的量化控制,以及利用低成本Flongle流动槽实现小规模多重测序的策略,都体现了其在临床环境下推广的潜力。该工作流程有望显著提升复杂遗传病例的解析能力,减少未确诊病例的数量,最终惠及患者。相关的生物信息学管道和详细文档已在GitHub上公开,便于其他研究者使用和借鉴。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号