拿什么来分析你,我的测序数据[心得点评]

【字体: 时间:2011年04月21日 来源:生物通

编辑推荐:

  由于新一代测序的发展速度飞快,因此一些新接触的实验人员可能会感到茫然无措:虽然这些研究人员都具有实体测序实验操作经验,但是如何处理获得的庞大数据是一个巨大挑战。幸运的是,目前已经有了一些免费的,或者说是低成本的多元化工具,以及活跃的用户群,可以帮助我们解决其中的一些问题。上回生物通谈到了硬件,数据分析需要什么样的IT设备,以及没有这些设备该怎么办?这回我们谈谈软件。

生物通报道:作为生命科学领域的“圈内人”,如果你还不知晓近期基因组测序的飞速发展,那你就实在太out了。。。随着新一代测序技术的不断改进,新测序仪不断涌现,测序价格也越来越低,应用当然也越来越广。近两年,新一代测序技术广泛应用于全基因组测序,疾病关键基因的测定,以及宏基因组学。

然而由于这一领域的发展速度飞快,因此一些新接触的实验人员可能会感到茫然无措:虽然这些研究人员都具有实体测序实验操作经验,但是如何处理获得的庞大数据是一个巨大挑战。幸运的是,目前已经有了一些免费的,或者说是低成本的多元化工具,以及活跃的用户群,可以帮助我们解决其中的一些问题。

上回生物通谈到了硬件,数据分析需要什么样的IT设备,以及没有这些设备该怎么办?这回我们谈谈软件。

我该使用什么程序?

同样,这要看情况。你想要开展什么分析?你能使用UNIX吗?你会编程吗?

目前已有数百个用于新一代测序的生物信息学工具,从商业化的产品到略有瑕疵的免费软件。在SeqAnswers.com (seqanswers.com/wiki/Software)上列出并介绍了超过360个软件。

对于新手来说,不幸的是,这些工具极少有着漂亮的图形用户界面。凯撒西储大学的Mark Adams谈到:“目前有相当多不错的免费软件可用于分析,但几乎所有免费软件和最新软件都是基于UNIX命令行的。”在大多数情况下,这些程序基本上是数据过滤器和文件转换器。它们接收一种形式的数据,处理它,并以另一种形式导出。

简单来说,大部分基因组中心自己写代码,指导原始序列数据通过这些步骤,将一个程序的输出结果导入另一个程序,清理,采集质量标准,与参考基因组比对,以及其他。

这样的软件流水线可能听起来无比复杂,但是在面对包含数百万条记录的数据文件时,你别无选择。因此,你们小组至少应有一人要有相当不错的UNIX技能。Wellcome Trust Sanger研究院的博士后Daniel MacArthur认为:“基本的UNIX命令行语法将让你利用此类型数据走得更远。”

我该如何查看原始数据?

通常来说,别这么做。你也不需要这么做。数据太多了,而你从中获得的将很少;相反,你要查看处理过的数据,SNP检出列表及其他。但MacArthur博士认为也有例外。他说,在投身验证研究之前,还是值得花时间去仔细检查那些支持变异体检出的真实序列读取。

MacArthur博士谈到:“对于那些刚刚开始涉及分析的研究人员来说,我的唯一忠告是——利用一切机会以尽可能多的方式来查看数据,因为你可能会上当。”比如,单核苷酸变异检出是相对可靠的。然而,插入和缺失(indel)却可能有问题:一些插入缺失读取被抛弃,因为它们看上去不能与参考序列正确比对;其他的则被称为SNP簇。他说:“诸如此类,只要你查看这些读取,你就能发现有一些确实错了。”

你可以利用基因组浏览器(如Integrative Genomics Viewer)来查看原始数据,它将重叠读取显示成参考基因组上的“堆积”。MacArthur博士认为Integrative Genomics Viewer是一个很好的工具,直观,易用。

如果想查看原始数据,你可以使用UNIX命令行工具,来确定你的数据格式是否正确,以便导入各种分析程序。

我能从哪里寻求帮助?

对于新一代生物信息学这个复杂且日新月异的学科来说,幸运的是,从来就不缺帮助,无论是用户组、在线论坛或网页教程。工具开发者通常还会回复电子邮件咨询,其他经验丰富的研究人员也是如此。这里推荐一个好的出发点:SeqAnswers.com,目前有6400名活跃的会员。

“那儿有很多人,他们有很多专业知识,因此别逞强,什么事都自己扛。利用你周围的知识。重新发明轮子是没有意义的。”华盛顿大学基因组中心的David Dooling如是说。

一些精选的免费数据分析工具:

名称

链接

评论

基因组重测序

 

 

Bwa

http://bio-bwa.sourceforge.net

比对工具

Dindel

http://sites.google.com/site/keesalbers/soft/dindel

小的插入/缺失发现

Erds

http://www.duke.edu/~mz34/erds.htm

拷贝数变异发现

Pindel

http://www.ebi.ac.uk/~kye/pindel/

小的插入/缺失发现

Samtools

http://samtools.sourceforge.net

操控比对后数据的工具

Sequence Variant Analyzer

http://www.svaproject.org

在基因组背景下显示变异

Chip-Seq

 

 

Findpeaks

http://vancouvershortr.sourceforge.net

 

RNA-Seq

 

 

Bowtie

http://bowtie-bio.sourceforge.net

比对工具

Cufflinks

http://cufflinks.cbcb.umd.edu

测定转录本丰度

Tophat

http://tophat.cbcb.umd.edu

剪接点定位

De Novo 拼接

 

 

Abyss

http://www.bcgsc.ca/platform/bioinfo/software/abyss

 

Oases

http://www.ebi.ac.uk/~zerbino/oases/

根据转录组数据拼接

Velvet

http://www.ebi.ac.uk/~zerbino/velvet/

 

基因组浏览器

 

 

Integrated Genome Browser

http://www.bioviz.org/igb/

 

Integrative Genomics Viewer

http://www.broadinstitute.org/software/igv/

 

 

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号