如何从零开始掌握生物信息学分析(新手宝典)

【字体: www.ebiotrade.com 时间:2015年8月13日 来源:生物通

编辑推荐:

  目前其实也不乏现成的计算工具,而且不少都是免费的,但对于门外汉来说还是有些难。通常情况下研究人员还是需要深入了解这些界面并未友好的程序,才能运行,而这需要计算运行的深厚知识。

分享到:
  

生物通报道:今天的世界大不同,表现在生命科学研究领域,就是一切都开始进入了大数据时代,无论是DNA序列,显微图片,还是质谱数据,研究人员都越来越需要对这些庞大的信息进行收集、整合、处理和诠释。

对于许多生物学家们来说,这并不容易完成,传统的科研培训方式主要集中于科学的基础原理和实验方法,而不是计算机编程和数据统计,因此当不少研究人员发现自己需要面对大量的数据量时,他们不知道如何处理这些问题。

目前其实也不乏现成的计算工具,而且不少都是免费的,但对于门外汉来说还是有些难。通常情况下研究人员还是需要深入了解这些界面并未友好的程序,才能运行,而这需要计算运行的深厚知识。

这就会导致研究人员在进行大数据研究的时候,不得不自己编写一些程序来进行可重复和得到证实的信息处理。然而这些过程也需要小心处理,一不留意犯错了,就有可能危及数据本身。

近期The Scientist杂志联系了几位科学程序员,了解他们所使用的工具是什么,如果是菜鸟需要进行哪些训练等。

选择一种语言

生物学家可以从各种各样的编程语言中选择一种,对于许多应用来说,随便选择一种都可以,不过目前最流行的可能就是Python 和 R。“就目前而言,这就像是科学研究的二重奏”,来自加州大学戴维斯分校的生物信息学家Vince Buffalo说,他刚完成了一本名为《生物信息学数据分析技巧》(O’Reilly Media Inc.)的新书。

Python 和 R相对来说都比较好用,但前者能完成多项任务,而后者主要针对的是统计方面的内容,两种语言都有其各自的使用用户群,因此具有特定功能预生成代码(prebuilt code)数据文库,比如以R语言为基础的Bioconductor Project (www.bioconductor.org),能为显微,测序和芯片数据提供模块。另外Python 公共文库也有:Anaconda (continuum.io/downloads)。

来自华盛顿大学基因组科学系的助理教授Cole Trapnell利用R语言完成了单细胞基因组数据集的处理,“单一细胞基因组学问题牵涉到许多的统计学方面的内容,R语言很适合。”

此外,还有一种受到大家认可的语言,那就C/C++(Julia (www.julialang.org)),这种语言特别合适用于那些相对较慢或内存密集型任务,Trapnell说。

如果能将Python的语法,R语言的图形灵敏性和C++的速度结合在一起,那就完美了,“这也就是说,这种代码很好编写,而且也很快,”,来自加州大学戴维斯分校的遗传学副教授Titus Brown说,但这需要你花费大量经历掌握这些语言,他建议,可以选择你同事已经在应用的语言,这样他就能帮助你解惑。

所需的工具

UNIX 和 Linux系统都有预安装软件,如果你没有,那么通过操作系统管理员也很容易获取。Macs系统包含一个现成的Python 解释器和C/C++ 编译器,但必须单独安装 R(www.r-project.org)。Windows系统在默认状态下,不包含任何一种编程语言,因此你可能需要自己安装。

程序员还需要的一个工具就是一个好用的文本编辑器,这是用于处理纯文本文件的程序,与之相对的就是处理特殊格式的程序,如Microsoft Word。核心程序员通常喜欢使用命令行编辑器 vi 或 emacs,在Linux 和 Mac系统中这两者都有预装。现在也有一些很强大的可配置程序,但是对于新手来说很难掌握,“这要求你自己想代码,因此我还是建议使用自己擅长的方法,”Trapnell说。

同时你还需要找到一种能够用特定颜色标记特殊语言关键词(“syntax highlighting”),语法检查 (比如说要能找到错误的方括号和圆括号),代码格式,以及处理多种文件的编辑器。

常用的两种就是Windows系统的Notepad++ (notepad-plus-plus.org),以及Mac和Windows、Linux系统通用的Sublime Text (www.sublimetext.com)。同时还有一种Mac界面可用的AquaMacs (aquamacs.org)。

“我向我的学生强调的关键一点就是,尽量少用鼠标,”威斯康辛大学麦迪逊分校生物统计学和医学信息学教授Karl Broman说,“每当你将手从键盘中移开的时候,就在减慢速度。”

另外,如果你计划在某个平台(如 Mac 或 Windows)上从一种特殊语言开始的话,那么也许你应该尝试一下集成开发环境(IDE,integrated development environment),这是用于程序开发环境的应用程序,一般包括代码编辑器、编译器、调试器和图形用户界面工具,这能简化你的工作。

Mac C/C++程序员可以用免费的Xcode (developer.apple.com/xcode), Windows 用户可以使用Microsoft Visual Studio (www.visualstudio.com)。而对于 R 编程来说,常用的一种选择就是RStudio (www.rstudio.com)。Eclipse IDE (eclipse.org/ide)是一种支持多种语言的模块化工具,所有这些平台的基本版本都是免费下载,有些适用于高级用户的附加功能也可以获取。

上一页 [1] [2] [3] 下一页

(http://www.ebiotrade.com/)
版权所有,未经书面许可,不得转载

我来说两句(0)

[Ctrl+Enter]

加载读者评论......
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

  • 国外动态
  • 国内进展
  • 医药/产业
  • 生态环保
  • 科普/健康

新闻专题

相关文章:

    加载相关文章......

今日文章:

    加载今日文章......

生物通首页 | 今日动态 | 生物通商城 | 人才市场 | 核心刊物 | 特价专栏 | BBS交流

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号