Bioinformatics:超级计算机大大促进基因组快速分析

【字体: 时间:2014年03月05日 来源:生物通

编辑推荐:

  当今,随着基因测序变得更便宜和更快,研究人员面临着数据分析的瓶颈。在2014年2月12日的《Bioinformatics》杂志上发表的一项研究中,芝加哥大学为首的一个研究小组,借助于世界上最快的、用于生命科学研究的超级计算机——Beagle,可以从根本上加速基因组的分析,从而突破了这种瓶颈。

  

生物通报道:当今,虽然整个人类基因组测序的时间和成本已经大幅下降,但是,对一个单一基因组中所获得的30亿个碱基对的遗传信息进行分析,可能需要几个月的时间。

最近,在2014年2月12日的《Bioinformatics》杂志上在线发表的一项研究中,芝加哥大学为首的一个研究小组,借助于世界上最快的、用于生命科学研究的超级计算机——Beagle,可以从根本上加速基因组的分析。这台计算机位于阿贡国家实验室,能够在大约两天时间内分析240个全基因组。

本文的通讯作者、芝加哥大学心血管遗传学诊所主任、医学和人类遗传学教授Elizabeth McNally表示:“这是一种可改变患者管理的资源,随着时间的推移,能够加深我们对于风险和疾病的遗传原因的理解。”

本文第一作者Megan Puckelwartz是McNally实验室的一名研究生,她指出:“超级计算机可以同时处理很多个基因组,而不是一次只处理一个基因组。它能够将全基因组测序(主要被用作一种研究工具),转换成对病人立即有价值的东西。”

延伸阅读:宏基因组测序获得1000种海洋病毒遗传序列Cancer Cell:基因测序发现治疗儿童肿瘤的药物外显子测序发现儿童语言障碍基因多种测序技术研究卵巢癌可塑性

因为基因组非常庞大,参与临床遗传学研究的科学家们已经转向外显子组测序,外显子组测序只集中在编码蛋白基因组的2%或更少。这种方法通常是有用的。据估计,85%的致病突变位于编码区。但是,其余大约15%具有临床意义的突变,来自于非编码区,曾经被称为“垃圾DNA(junk DNA)”,但是现在,我们知道它们具有重要的功能。如果没有巨大的数据处理分析的挑战,全基因组测序将是一种可以选择的方法。

为了检验这个系统,McNally的研究小组使用61个人类基因组的原始测序数据,在Beagle上分析了这些数据。他们利用公开提供的软件包和计算机总容量的四分之一。发现将数据移位到超级计算机环境后,提高了准确度并加快了速度。

McNally指出:“通过改善分析的速度和准确度,可降低每个基因组的价格。用这种方法分析一个完整基因组的价格,要低于仅仅研究一部分基因组的成本。新技术承诺,将测序成本降到每个基因组1000美元。我们的目标是,将分析成本下降到这个范围。”

本文的共同作者、计算研究所主任、计算机科学教授Ian Foster称:“这项工作,生动地展现了一种强大超级计算机资源用于生物医学研究的好处。随着基因测序变得更便宜和更快,研究人员面临着数据分析的瓶颈,而我们所开发的方法,有助于突破这种瓶颈。”

这一发现具有直接的医学应用价值。例如,McNally的心血管遗传学诊所,依靠对初期患者及多个家庭成员基因的严格检查,来了解、治疗和预防疾病。有超过50个基因可导致心肌病。其他的基因可引发心脏衰竭、心律紊乱或血管问题。

研究人员表示:“我们开始对患者进行遗传学测试。但是,当我们发现一个重要突变时,我们必须考虑检测整个家庭,以确定风险个体。”

可测试的突变的范围从根本上已经扩大。研究人员指出:“在早些年,我们会检测1到3个基因。在2007年,我们制备了第一个五基因面板。现在,我们一次可检测50到70个基因。在这一点上,它对于全基因组测序,可能更有用和更便宜。将这些基因组中获得的信息,与对患者及家族史的密切关注结合起来,可以增加我们对于这些遗传性疾病的认识。还可以改善这些疾病的分类。”

Beagle——安置在阿贡国家实验室科学大楼的Cray XE6超级计算机,支持生物医学研究界的计算、模拟和数据分析。它以HMS Beagle的名字命名,英国皇家海军“小猎犬号”(HMS Beagle)在1831年载着达尔文开始了著名的科学之旅。(生物通:王英)

生物通推荐原文摘要:
Supercomputing for the parallelization of whole genome analysis
Abstract
Motivation: The declining cost of generating DNA sequence is promoting an increase in whole genome sequencing, especially as applied to the human genome. Whole genome analysis requires the alignment and comparison of raw sequence data, and results in a computational bottleneck because of limited ability to analyze multiple genomes simultaneously.

Results: We now adapted a Cray XE6 supercomputer to achieve the parallelization required for concurrent multiple genome analysis. This approach not only markedly speeds computational time but also results in increased usable sequence per genome. Relying on publically available software, the Cray XE6 has the capacity to align and call variants on 240 whole genomes in approximately 50 hours. Multisample variant calling is also accelerated.

Availability and Implementation: The MegaSeq workflow is designed to harness the size and memory of the Cray XE6, housed at Argonne National Laboratory, for whole genome analysis in a platform designed to better match current and emerging sequencing volume.

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号