科学家现在可以在几分钟内在个人电脑上组装完整的基因组

【字体: 时间:2021年09月17日 来源:Cell Press

编辑推荐:

  科学家开发了一种在个人计算机上重建包括人类基因组在内的整个基因组的技术。这项技术比目前最先进的方法快大约一百倍,并且使用了五分之一的资源。受单词而不是字母为语言模型提供浓缩构建块的方式的启发,这项研究允许更紧凑地表示基因组数据。

  

“我们可以在一台普通的笔记本电脑上快速组装整个基因组和宏基因组,包括微生物基因组,”麻省理工学院计算机科学和人工智能实验室西蒙斯数学教授、该研究的作者Bonnie Berger说。“这种能力对于评估与疾病和细菌感染(如败血症)有关的肠道微生物群的变化至关重要,这样我们就可以更快地治疗它们,拯救生命。”

自人类基因组计划(Human Genome Project)以来,基因组组装项目已经取得了长足的进展。2003年,人类基因组计划完成了第一个完整的人类基因组组装,耗资约27亿美元。但是,虽然人类基因组组装项目不再需要几年的时间,它们仍然需要几天的时间和巨大的计算机能力。第三代测序技术提供了数以万计的碱基对的tb级高质量基因组序列,但使用如此庞大的数据进行基因组组装已经证明具有挑战性。

为了比目前的技术更有效地实现基因组组装,Bonnie Berger和他的同事们转向了语言模型。目前的技术需要对所有可能的阅读组合进行两两比较。从de Bruijn图(一种用于基因组组装的简单、高效的数据结构)的概念出发,研究人员开发了一种最小空间de Bruin图(mdBG),它使用被称为最小化器的核苷酸短序列,而不是单个核苷酸。

Berger说:“我们的最小空间de Bruijn图只存储了总核苷酸的一小部分,同时保留了整个基因组结构,使它们比经典de Bruijn图的效率高出几个数量级。”

研究人员应用他们的方法收集了黑腹果蝇的真实HiFi数据(几乎具有完美的单分子读取精度),以及太平洋生物科学公司(PacBio)提供的人类基因组数据。Berger和他的同事们在评估所得基因组时发现,与其他基因组汇编器相比,基于mdbg的软件所需的时间少33倍,随机存取内存(RAM)计算硬件少8倍。他们的软件对HiFi人类数据进行基因组组装,比Peregrine汇编器快81倍,内存使用量少18倍,比hifiasm汇编器快338倍,内存使用量少19倍。

接下来,Berger和他的同事用他们的方法建立了一个包含661406个细菌基因组的索引,这是迄今为止同类中最大的一个。他们发现,这种新技术可以在13分钟内搜索到所有的抗菌素耐药性基因,而使用标准序列比对需要7个小时。

Berger说:“我们知道这一方法是有效的,但不知道在进一步优化代码后,它能在真实数据上扩展得如此好。”

巴斯德研究所的研究人员和小组负责人、该研究的作者之一RayanChikhi说:“总体想法是可行的,不需要一些通常昂贵的预处理步骤,比如大多数其他基因组组装方法所做的错误校正。”

Berger补充说:“我们还可以以高达4%的错误率处理测序数据。”“随着错误率不同的长读测序仪价格迅速下降,这种能力为测序数据分析的民主化打开了大门。”

Berger指出,虽然该方法目前在处理PacBio HiFi读取时表现最好,错误率远低于1%,而且它可能很快就能与牛津纳米孔的超长读取兼容,目前牛津纳米孔的错误率为5-12%,但可能很快就能提供4%的读取。

Berger说:“这样就可以帮助帮助现场科学家们建立快速的基因组检测站点,超越可能会错过基因组之间重要差异的PCR和标记阵列。”

这项工作得到了美国国立卫生研究院、ANR Inception、PRAIRIE和PANGAIA的支持。

Journal Reference:

  1. Barış Ekim, Bonnie Berger, Rayan Chikhi. Minimizer-space de Bruijn graphs: Whole-genome assembly of long reads in minutes on a personal computer. Cell Systems, 2021; DOI: 10.1016/j.cels.2021.08.009

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号