高精准长读长HiFi测序解析高度相似的旁系同源基因

【字体: 时间:2025年06月20日 来源:基因有限公司

编辑推荐:

  长读长测序技术可以为许多样品生成高质量的定相组装,揭示SDs的序列,然而具有高度相似区域的多个拷贝的SDs容易发生组装错误,特别是在高度同源区域。本文开发了一种定相方法Paraphase,用于识别基因及其旁系同源物的单倍型。

基于短读长测序的全基因组测序(WGS)研究已经能够对绝大多数人类基因组中的变异(特别是小变异)进行全面表征。然而,还有一些困难区域和变异类别仍然无法通过短读长测序技术获得。这些困难区域中的很大一部分发生在片段重复(SDs)内,因为SDs拷贝之间的高序列相似性会导致短读reads的模糊映射。除了难以在SDs内定位reads外,高序列相似性也会促进不平等交叉,导致拷贝数变异(CNVs)及高基因转换率。虽然已经开发了基于短读reads的计算方法来提高SDs中的基因分型能力,但这些区域中的全面变异识别仍然是一个挑战。

许多医学相关基因都属于SDs,如SMN1/SMN2、CYP21A2/CYP21A1P、OPN1LW/OPN1MW等。迄今为止,这些医学上重要的SDs编码基因是通过多步分析进行研究的,如多重连接依赖性探针扩增(MLPA)、扩增子测序或长距离PCR,然后进行Sanger测序,以检测拷贝数变异或个体变异。这些检测一般仅限于几个已知的变异,如果患者具有未知的致病性变异,则可能出现假阴性。因此仍然需要充分表征这些基因以用于研究和临床检测。长读长测序技术可以为许多样品生成高质量的定相组装,揭示SDs的序列,然而具有高度相似区域的多个拷贝的SDs容易发生组装错误,特别是在高度同源区域。本文开发了一种定相方法——Paraphase,用于识别基因及其旁系同源物的单倍型。

image001.png

具体表现

1. 利用Paraphase分析160个基因编码的旁系同源区域

Paraphase通过将HiFi reads与一个最相关的基因重新对齐来解析高度相似的基因,该基因被选择来代表基因及其旁系同源区域的所有拷贝(图1a)。例如,将所有与SMN1或SMN2对齐的reads重新对齐到SMN1,因为SMN1是完全功能的拷贝。研究共鉴定了160个长度>10 kb、序列相似性>99%的旁系同源区域,共编码316个基因。其中149个基因位于同一染色体上,16个基因串联。如图1b所示,短读长数据在旁系同源区域的映射质量(MAPQ) 极低,表明将短读长比对到这些区域存在很大困难。即使对于长读长数据,仍有44.1% 的区域总结 MAPQ ≤ 20。而在高 MAPQ 区域,Paraphase仍能提升性能,由于参考基因组缺陷、拷贝数变异以及基因转换率高而容易出现错误比对,以及基因融合难以检测。

image004.png

图1. Paraphase的设计及其所分析的区域

研究人员首先在 21 个通过 MLPA 和 Sanger 测序等方法鉴定出的患病或携带者样本的 8 个医学相关基因中验证了 Paraphase 的变异检测结果(表 1 )。在此次验证中,Paraphase 正确识别了这些样本中的全部 30 个临床变异。而对36 个三联体的Paraphase 验证表明,在先证者中调用的 14734 个全长单倍型中,有 14679 个(99.6%)与父母中观察到的单倍型完全一致。在检查 55 个不一致的案例时,发现 43 个(0.29%)没有得到reads的完全支持,因此被确定为 Paraphase 错误(父母中的单倍型交换错误或遗漏)。其余 12 个(0.081%)不一致的单倍型得到了reads的完全支持,因此是真正的重组或新生事件。另外,与 47 个人类泛基因组参考中心 (HPRC) 样本中的高质量二倍体组装结果进行对比发现,Paraphase 在82.4% 的旁系同源基因组中具有>95% 的召回率和>95% 的准确率,差异主要是由于组装错误。

表1. 用医学相关基因验证Paraphase

image006.png

Paraphase 的性能将取决于单倍型之间的序列差异、读长以及测序深度。只要读长至少为 10 千碱基对,每个单倍型的测序深度为 10 倍,且序列差异不超过 0.05%时,Paraphase 能保持较高的单倍型分型准确性。

2. 旁系同源基因的拷贝数变异

研究人员计算了在五个祖先群体的259个无关个体中的旁系同源基因组的总拷贝数(CN)分布。通过具有众数CN值的个体的百分比来评估总CN的变异性,超过90%为低,80%-90%为中,小于80%则CN变异性为高。结果表明,79个基因组的CN变异性为低,17个中等,64个高。此外,25.6%(41/160)的基因组在祖先群体之间具有显著偏差。

CN变异性可以反映参考基因组(GRCh38)的群体水平“准确性”。例如,如果参考基因组是正确的,并且这种变异在整个人群中具有普遍性,那么在分析中,具有两个同源区域的变异体总是会具有 CN 值为 4。同样,如果每个个体在该群体中都具有 CN 值为 2 的同源组,那么这个同源组很可能是参考基因组中的错误。研究确定了 22 个同源组,其中超过 95% 的个体总 CN 值为 2(图 2b)。这表明对于这些基因,人群中重复事件是罕见的,而这些变异可能代表了参考基因组中的错误。其中 19 个同源组与基于 CHM13 T2T 组装分类为假重复的区域重叠。

相反,三个旁系同源组(CTAGE8/CTAGE9,OR2A1/OR2A42,和RIMBP3/RIMBP3B/RIMBP3C)确实是群体中的拷贝数变异区域(图2a),但在GRCh38中归因于假重复,这是由于CHM13 T2T组装中缺失相关基因所致。群体CN分析比单个个体分析更能准确评估参考基因组中的假重复。

image008.jpg

图2. 各旁系同源基因组的总CN在人群中的分布

3. 群内多样性极低的旁系同源基因组

Paraphase从259个样本中的160个旁系同源基因组中鉴定出159795个单倍型。广泛的基因转换和不平等的交换可以导致高度相似的基因拷贝,这些拷贝不再能够单独基于序列被分成不同的基因。例如,SMN1和SMN2在外显子7-8中的序列不同,但在外显子1-6中不可区分。研究基于单倍型间的差异指标确定了23个低多样性旁系同源基因组,其中4个位于chrY,11个位于chrX,8个位于常染色体(表2)。这些基因组在其基因组结构、CN变异性和进化历史上显示出两种不同的模式:常染色体上的基因组具有高CN变异性,并且许多是人类特异性重复;相反地,性染色体上的基因组大多具有低CN变异性,以回文结构排列并且在进化上保守。

表2. 低组内多样性的旁系同源基因组

image010.png

4. 解析医学相关旁系同源基因

研究人员最后使用Paraphase分析了三个已知的医学相关旁系同源基因组(CYP21A2/CYP21A1P,PMS2/PMS2CL和OPN1LW/OPNMW)。

CYP21A2变异导致21-羟化酶缺陷型先天性肾上腺增生。CYP21A2位于RCCX模块的30 kb串联重复序列中,该模块包括其假基因CYP21A1P以及另外两对旁系同源物C4A/C4B和TNXB/TNXA(图3a)。该区域易受基因转换以及RCCX模块的缺失和复制的影响,导致CN变异和致病杂合基因。利用Paraphase软件分析了RCCX的单倍型序列,揭示了RCCX的遗传多样性(图3b),38.2%的个体具有CNV。

PMS2基因中的致病性变异会导致林奇综合征。PMS2与其假基因PMS2CL在外显子12-15上具有高序列相似性,并且基因转换和不等交换突变已被证实会促进这两个基因之间的序列交换 。对人群中的PMS2和PMS2CL单倍型进行检测发现,在第 15 外显子中,PMS2和 PMS2CL的序列彼此无法区分,没有任何变异(图 3c)。PMS2和PMS2CL之间的基因转换偶尔发生在外显子12,而频繁发生在外显子13-14。有趣的是,分析显示了非洲血统个体中基因转换的更多证据,并且超过75%的非洲PMS2/PMS2CL单倍型部分或完全转换(图3d)。

OPN1LW和OPN1MW负责红绿色觉缺陷和其他视觉疾病。该区域以基因阵列排列,并且仅表达阵列中的前两个基因。Paraphase能够识别重复序列的所有拷贝,将基因分配给OPN1LW或OPN1MW,并识别每个阵列中的前两个拷贝。图3e显示了具有OPN1LW和OPN1MW各一个拷贝的等位基因(上图),和仅具有OPN1LW的等位基因(下图),这会导致色觉缺陷。分析表明,这个同源组的总拷贝数在不同人群之间变化很大(图 3f)。

除此之外,研究还总结了其他医学相关基因,包括SMN1/SMN2(脊髓性肌萎缩)、STRC(遗传性听力损失和耳聋)、HBA1/HBA2(α地中海贫血)等,在不同人群中存在的广泛的医学相关变异。

image012.jpg

图3. CYP21A2、PMS2和OPN1LW/OPN1MW的群体结果

Summary

在本文中,研究人员将Paraphase应用于160个片段重复区域,Paraphase可以恢复未对齐的reads,并正确解析基因及其高度相似的旁系同源物/假基因。

Paraphase结合HiFi长读长测序技术,为解析旁系同源基因提供了一个单一的框架。在受到假基因或旁系同源基因挑战的医学重要基因中,Paraphase有助于实现更准确的致病性变异检测,从而使我们以一种单一的检测方式替代目前提供的众多基因检测方式。此外,在以前难以获得和研究较少的基因中,用Paraphase进行的基于全人群测序的分析将有助于发现新的基因与疾病的关联。

如果各位老师对Paraphase感兴趣,更多有关Paraphase的安装运行介绍请参考:https://github.com/PacificBiosciences/paraphase


订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号