新手如何开始基因组测序数据分析?[心得点评]

【字体: 时间:2011年04月20日 来源:生物通

编辑推荐:

  基因组测序技术在短短5年时间里,从一种令人仰望的高端技术变成了实验室里的常规操作,目前已经有了一些免费的,或者说是低成本的多元化工具,以及活跃的用户群,可以帮助我们解决其中的一些问题,包括大部分新手都会提的一个问题——从那儿开始?以下的这些测序专家会从这一最常见的新手问题开始,一一帮助我们解答疑惑。

生物通报道:作为生命科学领域的“圈内人”,如果你还不知晓近期基因组测序的飞速发展,那你就实在太out了。。。这项技术在短短5年时间里,从一种令人仰望的高端技术变成了实验室里的常规操作,仅仅就去年一年时间,这项技术就应用到了千人基因组计划、人类微生物计划这两项重要的研究项目中,识别了大量孟德尔遗传疾病相关的基因,比如朱伯特综合症(Joubert Syndrome),米勒费雪综合症(Miller Syndrome),还破解了苹果,虱子,以及前段时间侵袭海地的霍乱弧菌的基因组,实力确实不可小窥。

然而由于这一领域的发展速度飞快,因此一些新接触的实验人员可能会感到茫然无措:虽然这些研究人员都具有实体测序实验操作经验,但是如何处理获得的庞大数据是一个巨大挑战。幸运的是,目前已经有了一些免费的,或者说是低成本的多元化工具,以及活跃的用户群,可以帮助我们解决其中的一些问题,包括大部分新手都会提的一个问题——从那儿开始?以下的这些测序专家会从这一最常见的新手问题开始,一一帮助我们解答疑惑。

需要什么IT基础设备?

简而言之:视情况而定。测序数据集信息量都很大,但不是所有的数据集都一样,比如说,全人类基因组测序项目包括原始测序数据,比对数据,变异检出数据等,每个样品都能达到上百GB,而像ChIP-Seq数据集(例如染色体免疫共沉淀实验数据)就小得多了,才几个GB而已。

因此要回答需要多少空间来存储所有数据这个问题,也是视情况而定。弗吉尼亚州立联邦大学生物标记研究及个性化医疗中心有一台2010年早期购买的ABI SOLiD 4测序仪,目前这个中心有大约35TB(即35000GB)的磁盘空间来存储数据,其中一些保存在实验室内,但是大部分实际上都外包了,比如1575个个体甲基化测序数据。中心主任Edwin van den Oord说,“仅仅是实验室里产生的数据不需要这么大的空间”,但即使是35TB的空间还是不够的,“我们需要购买更多的磁盘才能分析这些数据”。来自杜克大学的Kevin Shianna实验室完成了200个全人类基因组测序,以及另外100个基因组外显子(即蛋白编码区域)测序,目前他们有300TB磁盘空间,而且其中大部分都是满的!

除了磁盘空间外,另外一个关键的元素就是电脑的运作能力,数据文件如此之大,往往不能通过台式机来准确分析,因此需要计算机PC集群(cluster)——一种特别的ad-hoc超级电脑(ad-hoc:电脑到电脑网络),电脑之间通过网络链接,由许多小电脑并联组成。举例而言,杜克大学所用的一种软件工具:Sequence Variant Analyzer(能注释基因变异,以及这些变异在基因组中位置)就是“一个内存怪兽”,Shianna说,“它至少需要24-32GB的内存空间。”

如果没有这些设备该怎么办?

许多高校都提供集群资源服务,但也不是每个都有,对于没有集群设施的研究人员来说,可以寻找一些Web,云模式(cloud-based)为基础的来替代,比如Amazon Web Services,这是一种可以提供基础设施的计算平台服务,包括云计算平台EC2(Elastic Compute Cloud)——拥有几乎无限的计算设施,和云储存服务S3(simple storage service)——提供在线存储服务。每个人都可以在AWS上建立自己的户头,这要求有一台实体的机器,一个计算机界面来连接网络,然后通过Amazon的云服务进行数据分析。

这种付费系统灵活性很大,通过Amazon(或其它的云服务平台,比如Google和Microsoft)完成繁重的高计算量任务,研究人员就能从购买,维修和升级IT设备这些繁杂的事情中脱身,DNAnexus公司总裁Andreas Sundquist说,“我看到Amazon最新预算好像订了十万个CPU,还有上百个PB(1PB=1000TB)磁盘”,“世界上能接触到这么多计算机和磁盘的地方非常少”,一些无私的研究人员还研发了一种预先组态(preconfigured)生物信息学为基础的虚拟Linux机器,作为一个Amazon镜像系统(Amazon Machine Image),这种打包的服务器环境能运行需要的软件和应用程序,链接为www.cloudbiolinux.com。

除此之外,还可以试试宾州的Galaxy (galaxy.psu.edu/),其网页介绍道,“Galaxy能帮助你完成其它任何地方都无法完成的分析,而且无需安装或者下载任何东西,你可以分析多重比对,比较基因组注释,解析宏基因组样品等更多得多的应用”,这一系统包含有大量的文档资料和教程视频,来自凯撒西储大学的Mark Adams将Galaxy称为“一个能整合不同类别数据,查询数据,协调性尤其好的优秀系统”。

对于云计算有更高要求的研究人员就可以尝试下一些商业公司,比如 DNAnexus (dnanexus.com)和GenomeQuest (www.genomequest.com),前者可以通过直接上传,或者联网的测序仪上接收数据,进行变异查找,RNA表达分析和ChIP-Seq分析。Sundquist说,“你不用考虑这些分析在哪里进行,也不用考虑结果存储在哪里,这些DNAnexus云计算都能帮你做到”。这些服务(AWS)的价格是20美元/GB/2年(科研单位),5美元/GB(测序机构)。

(生物通:王蕾)

第二部分报道:拿什么来分析你,我的测序数据

注释:

AWS

Amazon Web Services 是一组服务,它们允许通过程序访问 Amazon 的计算基础设施。Amazon多年来一直在构建和调整这个健壮的计算平台,现在任何能够访问 Internet 的人都可以使用它。Amazon 提供几个 Web 服务,但是本系列只关注满足大多数系统的核心需求的基本服务:存储、计算、消息传递和数据集。

通过在 Amazon 提供的可靠且经济有效的服务上构建功能,可以实现复杂的企业应用程序。这些 Web 服务本身驻留在您的环境之外的云中,具备极高的可用性。只需根据使用的资源付费,不需要提前付费。因为硬件由 Amazon 维护和服务,所以您也不需要承担维护费用。

这个虚拟的基础设施大大降低了当今 Web 环境中的 “贫富差异”。您可以在几分钟内快速地获得一个基础设施,而这在真实的 IT 工作室中可能会花费几周时间。要点在于这个基础设施是弹性的,可以根据需求扩展和收缩。世界各地的公司都可以使用这个弹性的计算基础设施

EC2

EC2全称Amazon Elastic Compute Cloud,是Amazon于2006年推出的新一代hosting服务,目前尚处于beta阶段,但是使用中没有发现什么问题,相当稳定。Amazon EC2实际上是提供了一些虚拟机,可以是Linux的也可以是windows的,用远程桌面链接。通过web service或者他的控制台可以很方面的添加/删除虚拟机,按照运行时间和容量付费,不用的时候直接关了就不用再花钱了。

S3

Amazon S3(Simple Storage Service)是Amazon Web Services在2006年3月推出的在线存储服务。开发人员可以使用它存储数字资产,包括图片、视频、音乐和文档。 Amazon S3是基于软件即服务(Software as a Service,SaaS)的一种云储存服务,使用 S3 时,它就像一个位于 Internet 的机器,有一个包含数字资产的硬盘驱动。

您通过 S3 存储和检索的资产被称为对象。对象存储在存储段(bucket)中。您可以用硬盘进行类比:对象就像是文件,存储段就像是文件夹(或目录)。与硬盘一样,对象和存储段也可以通过统一资源标识符(Uniform Resource Identifier,URI)查找。

AMI

Amazon Machine Image(简称AMI) 是亚马逊EC2服务附属的镜像系统。
 

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号