【用户谈】利用纳米孔测序组装完整的X染色体

【字体: 时间:2019年06月03日 来源:生物通

编辑推荐:

  第二天,加州大学圣克鲁兹分校的Karen Miga介绍了如何利用纳米孔测序来组装完整的人类X染色体。

Oxford Nanopore公司日前在伦敦举办了盛大的London Calling 2019用户会议。来自世界各地的600名与会者聚集在Old Billingsgate,讨论纳米孔测序的方方面面。据悉,87名科学家将会发表演讲,介绍纳米孔测序的各种应用。

第二天,加州大学圣克鲁兹分校的Karen Miga介绍了如何利用纳米孔测序来组装完整的人类X染色体。

Karen在开场时表示,我们正在进入遗传学和基因组学的新时代,需要高质量的完整组装。现有的人类参考基因组(GRCh38)是迄今为止最准确且完整的脊椎动物基因组,但它并不是完整的,还有368个未解决的问题和102个缺口。

以21号染色体为例,它有~30 Mb的组装序列,但缺失了~20 Mb的序列,这些区域可能与疾病相关联。它们代表了与片段重复、基因家族、卫星序列、着丝粒和rDNA相关的区域。为了打造完整的人类基因组,Telomere-to-Telomere(T2T)联盟成立,而Karen正是其中的一员。

Karen及其同事利用长读长的纳米孔测序技术对CHM13hTERT细胞系进行测序,这是一种核型稳定的单倍体细胞系。从2018年5月到2019年1月,她们共使用了94张MinION/ GridION芯片来测序,获得了50倍的覆盖深度,映射后最长读长达1.04 Mb。

她们利用这些超长的纳米孔数据来构建重叠群,并结合其他测序平台的长读长数据集来精细处理和结构验证。之后利用比对软件Canu进行序列组装;最终组装好的序列为2.94 Gb,N50重叠群为75 Mb,这在完整性和连续性上超过了N50重叠群为56 Mb的GRCh38参考基因组。

Karen表示,下一步将利用这种混合的从头组装方法来组装完整的X染色体。X染色体与许多孟德尔疾病相关,因此值得投入时间进行研究。最大的挑战在于着丝粒,它需要能够跨越100 kb高度重复区域的超长纳米孔序列。不过,她也认为手动完成的组装还需要使用其他方法来验证。

为了处理串联重复,Karen等人利用独特的k-mers来进行polish。首先包括识别整个基因组中所有独特的单拷贝k-mers。接着利用这些k-mers来建立scaffold,用于高度可靠的长读长比对,只有那些能与独特k-mers比对的长读长被保留。在重复密集区域(如着丝粒)中,单拷贝k-mers的间距是不规则的。例如,X染色体上两个k-mers之间观察到的最长距离为53 kb,这意味着跨越染色体的这一部分需要≥53 kb的读长。

她们对纳米孔读长进行两轮的polish,加上对其它测序平台的长读长进行polish,然后使用HiFi比对来评估polish是否成功。Karen表示,T2T X染色体具有从端粒到端粒的结构验证组装,包括了在X着丝粒处的2.8Mb串联重复。她认为,这种策略“真正为我们带来了高质量和高连续性”。

Karen最后表示,未来两年的目标是获得完整的人类基因组。“我们面临的挑战包括中心粒区域、大的片段重复以及经典的卫星序列,我们需要考虑重复组装的自动化。我们在组装质量和完整性方面为遗传学界设定了越来越高的标准。从2020年开始,我们要考虑人类群体,而不是个人基因组。这就需要在PromethION上开展更高通量的测序,现在我们开始加快这一进程,”Karen谈道。

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号