5碱基HiFi测序助力更多罕见病解析

【字体: 时间:2022年11月01日 来源:

编辑推荐:

  来自堪萨斯城儿童慈善中心的研究人员从152个家族的276个罕见病样本中生成了一个单倍型解析的5碱基HiFi测序数据集,以识别基因组中罕见的(~0.5%)多个甲基化CpG富集(hyper-mCpG)的事件。

5碱基HiFi测序

甲基化是蛋白质和核酸的一种重要的修饰,调节基因的表达和关闭,与癌症、衰老、老年痴呆等许多疾病密切相关,是表观遗传学的重要研究内容之一。

PacBio HiFi测序允许对单核苷酸变异 (SNV)、插入缺失(InDel)和结构变异 (SV) 进行准确检测和直接定相,还允许同时检测CpG甲基化 (mCpG),以便直接在全基因组HiFi测序中分析调节元件(regulatory element,RE)活性。

来自堪萨斯城儿童慈善中心(Children's Mercy Kansas City)的研究人员从152个家族的276个罕见病样本中生成了一个单倍型解析的5碱基HiFi测序(HiFi genome sequencing,HiFi-GS)数据集,以识别基因组中罕见的(~0.5%)多个甲基化CpG富集(hyper-mCpG)的事件。

1 数据集与准确性

实验设计:

①对来自152个家族的276个样本进行HiFi-GS
②1,184个样本的短读长全基因组亚硫酸氢盐测序 (short reads whole-genome bisulfite sequencing, srWGBS)

测序技术的比较:

儿科罕见病计划“儿童基因组答案”(Genomic Answers for Kids, GA4K)致力于收集疑似遗传病的家庭基因组数据和健康信息。基于GA4K计划,研究人员比较了WGBS(N = 1184)和HiFi-GS(N = 276)测得的CpG岛数据中共有的93个样本的相关性,显示两种方法之间有显著一致性,相关性为0.90(n = 93个样本,同时具有HiFi和srWGBS,图1)。


图1. srWGBS(N = 1184)和HiFi-GS(N = 276)所测甲基化数据中共有的93个样本的相关性分析

对于短读长测序技术来说,基因组测序面临的一个主要挑战是重复序列(重复序列占基因组的50%以上)。而且很多由简单重复序列编码的遗传病由于复制过程中二级结构的不稳定性,会导致重复的扩大。因此,对于短读长测序而言,不论是读长还是对复杂序列的解析能力都不够。

于是高准确度、高分辨率的HiFi测序在罕见病领域大放异彩。基于HiFi测序一次就可以获得单倍型分型和甲基化数据。同时由于HiFi读长可达10-25 kb,轻松跨越重复区域,广泛应用于印记疾病的诊断。

研究人员将HiFi-GS应用于串联重复类型的先证者,如先天性肌强直性营养不良1型(congenital Myotonic dystrophy type 1,DM1)患者。在病例中检测到DMPK重复扩张(4,823 bp-5,190 bp)、45 bp缺失、长约1 kb的hyper-mCpG以及横跨缺失和剪接位点的soft-clipped reads(即带有红色末端的reads,图2)。短读长测序在串联重复方面表现不佳,而HiFi测序很好的克服了这一点,不仅可有助于检测罕见病患者基因组上的串联重复和甲基化,还进一步实现分型,精准分析致病原因。



图2. 5碱基HiFi-GS在DM1患者的DMPK重复。(母本拷贝在虚线上方,父本拷贝在虚线下方)

2 实验结果与分析

分析甲基化数据

研究表明hyper-mCpG可通过RE(LRE)的失活或丢失导致疾病关键基因的沉默。因此,研究人员首先根据200 bp区域内mCpG的分布进行分类,若200 bp内存在两个或多个hyper-mCpG则定义为极端hyper-mCpG,若存在两个或更少的hyper-mCpG则定义为罕见hyper-mCpG。罕见hyper-mCpG要再次进行过滤,仅留下所有CpG平均z score为两个或更多的事件(图3)。因此,研究人员假设在全基因组范围内筛查长距离内的hyper-mCpG事件可能有助于在未解决的罕见病中识别非编码但功能性的罕见SNV和SV。


图3. 检测罕见的hyper-mCpG流程。

甲基化“异常值”

经过以上流程,共识别出25,543个罕见的hyper-mCpG,其中81%是等位基因特异性的(即仅在一个等位基因中存在异常值),可能会导致RE的失活(图4)。而且HiFi reads的分型能力大大提高了检测hyper-mCpG的能力,平均每个个体检出117个(而srWGBS只有8个!)(图5)。


图4. 25,543个罕见hyper-mCpG中等位基因特异性hyper-mCpG的分布情况。


图5. HiFi-GS评估的每个个体中hyper-mCpG的数目(平均117个)。

分析数据中的变异

研究人员进一步分析发现许多罕见hyper-mCpG可以通过关联的稀有SNV或SV(即表观遗传差异的遗传原因)来解释。结果表明影响附近甲基化事件的SNV通常位于1 kb以内;影响附近甲基化事件的SV通常位于10 kb以内。如图,特发性肺纤维化常染色体隐性疾病基因NHLRC2中A-C的转换(chr10:113,854,859,虚线黑框)位于罕见的hyper-mCpG(红框)上游900bp处(图6)。


图6. 常染色体隐性疾病基因NHLRC2中A-C的转换。A.罕见C和常见A等位基因携带者中不同的CpG状态。B.罕见C等位基因群体的平均CpG甲基化水平。C.常见A等位基因群体的平均CpG甲基化水平(y轴,0-100%)。D. HiFi-GS数据显示相同reads中罕见C等位基因的高甲基化。E. HiFi-GS数据显示相同reads中常见A等位基因的低甲基化。

用基因变异关联到病症

研究表明,RE近端的罕见的hyper-mCpG事件可能有助于RE沉默及影响基因表达。于是研究人员进一步探索了hyper-mCpG事件是否与罕见疾病基因(OMIM)相关(图7)。

在OMIM基因包含的hyper-mCpG事件中,2个z score最高的hyper-mCpG事件比对到GNAO1的相邻区域。先证者(2岁)患有吞咽困难和生长迟缓,有癫痫发作家族史。在chr16:56,318,495(黑色矩形)处,先证者和父亲都有罕见的C-A的SNV,它与脊椎动物保守序列一个500 bp极端完全甲基化信号(红色)和ENCODE保守的调节元件重叠(黄色区段)。考虑到GNAO1相关神经发育性疾病的广泛范围以及未确诊的先证者和家族史,该变异是进一步研究的候选者(图7A)。

为了证明5'近端SNV或SV相邻的hyper-mCpG事件大多数发生在常染色体隐性基因启动子中,研究人员通过HiFi-GS数据分析表明MTHFR基因区域上父系等位基因(第一轨道)呈现hyper-mCpG,母系等位基因(第二轨道)呈现hypo-mCpG(低甲基化状态)(图7B)。对先证者基因组分型后显示遗传自父亲的单倍型Hap1中由于罕见的5'UTR SNV(虚线黑框)而存在hyper-mCpG,遗传自母亲的Hap2则呈现低甲基化状态。而WGBS数据无法实现分型所以无法解释MTHFR等位基因特异性的hyper-mCpG事件(图7B)。


图7. 在调节元件中具有罕见hyper-mCpG事件的OMIM基因。A. GNAO1相关神经发育性疾病的案例;B. MTHFR基因5'近端SNV或SV连接的等位基因特异性的hyper-mCpG事件。

3 结果与讨论

综上,每位患者平均有30-40个hyper-mCpG与罕见病基因重叠,基于hyper-mCpG的分析解析了更多罕见病关键基因中先前被忽视的基因中的重复扩增事件,使得更多的罕见病病例得以解释。

“我们建议在未解决的罕见病病例中使用HiFi全基因组测序检测由于失去调节元件活性而导致的等位基因特异性的非常规疾病。”


——Warren A Cheung

5碱基HiFi测序

目前官方直接提供甲基化修饰检测流程和分析软件:原核生物4mC,6mA;真核生物5mC。

HiFi测序基于酶动力学的检测,无需对现有的建库和测序流程进行任何修改就能够在一次测序反应中直接获得完整基因组测序&表观基因组。与现有的其它5mC检测技术相比,基于HiFi的5mC检测能够在提供既长又准的测序结果的同时,给出准确的单倍型甲基化信息。这将有助于科学家在更高的表观遗传学维度了解疾病的起因和解决长期困扰他们的遗传学问题。

基因有限公司

作为PacBio公司在中国区的独家代理商,自2011年以来将PacBio第三代单分子实时测序技术引入国内,一直为国内用户提供专业的三代测序系统的安装培训,技术支持,应用培训与售后维护工作,赢得客户的一致好评与信任。基因有限公司将一如既往的支持越来越多的PacBio用户。

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号