中国农科院学者Nature Methods提出第三代测序数据组装新算法

【字体: 时间:2019年12月25日 来源:生物通

编辑推荐:

  

  

基因组学技术飞速进步源于测序技术的发展,同时也依赖于数据分析技术的提高。以第三代测序为例,目前完成个人全基因组测序仅需一天时间,费用也已经低于5万元。完成这样数据规模的全基因组组装分析,在2014年需要消耗50万个CPU小时,只能在超大计算机集群上进行。这种情况下,同时对大量个体进行组装分析是难以想象的,然而以全基因组组装方式对群体的测序分析已经成为生物医学研究的趋势。

近期,来自中国农科院农业基因组研究所,哈佛大学的研究人员发表了题为“Fast and accurate long-read assembly with wtdbg2”的文章,发表第三代测序数据组装算法wtdbg2,引起广泛关注。

这一发现公布在Nature Methods杂志上。

Denovo序列组装是根据相对较短的reads中重建样本基因组,对研究新物种和基因组结构变化至关重要。但由于参考基因组可能缺少目标序列,基因组结构变化常常无法进行基因映射分析。随着Oxford Nanopore Technologies、Pacific Biosciences等三代测序公司对单分子测序技术的大力开发,科学家能够以低成本对10~100kb的序列进行测序。该长度的reads可帮助解析灵长类动物中的主要重复序列,并有助于提高组装基因组的连续解读。

Wtdbg算法的开发得益于一个新的组装图理论(Fuzzy Bruijn Graph,模糊布鲁因图)的提出。模糊布鲁因图借鉴了德布鲁因图(de Bruijn Graph)的思想,将测序数据切分为固定长度的短串,再从短串构建出的图上恢复出全基因组序列。

德布鲁因图以速度优势常用于第二代测序数据的组装分析,但因测序噪音极高的难题,从未成功应用在第三代测序数据。模糊布鲁因图则重新对短串进行定义,使之能够容忍高噪音数据,并随后对生成组装图和恢复基因组序列做了大量相应的重构,使其兼具高效率和高容错的优点。

据了解,该算法极大提高三代测序数据的分析效率,与2019年4月1日在《自然·生物技术》(Nature Biotechnology)上发表的Flye算法相比,分析速度提升了5倍,并首次将测序数据分析时间降低到少于测序数据产出时间。

这项研究始于2013年,由阮珏博士与美国哈佛医学院博士李恒合作完成。目前,这项成果已被国内多家基因测序分析公司作为主要组装分析工具。


原文标题:

Fast and accurate long-read assembly with wtdbg2

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号