解决基因组学重要挑战的新工具

【字体: 时间:2015年06月18日 来源:生物通

编辑推荐:

  DNA污染风险,是单细胞基因组测序和基因组组装的一个重要挑战。最近,来自美国能源部联合基因组研究所(DOE JGI)的一个研究团队,首次开发了一种计算机程序,可快速、自动地去除基因组草图中的污染序列。他们开发的这种工具称为ProDeGe (Protocol for Decontamination of Genomes),发表在六月九日的Nature旗下子刊《The ISME Journal》。

  

生物通报道:单细胞基因组学和宏基因组学是开创性的技术,可帮助研究人员评估环境微生物群落的结构和功能。现在应用这些技术的项目越来越多,但是,仍缺乏一种高通量过程来检查所组装的基因组序列,从而阻碍了这些技术的广泛应用。目前,去除已上传到公共数据库的微生物基因组中的污染序列,还是一个手动和耗时的过程,为了去除污染序列,就需要有关它们的信息。

为了解决这个障碍,来自美国能源部联合基因组研究所(DOE JGI)原核生物超级项目(Prokaryotic Super Program)的一个研究团队,首次开发了一种计算机程序,可快速、自动地去除基因组草图中的污染序列。他们开发的这种工具称为ProDeGe (Protocol for Decontamination of Genomes),发表在六月九日的Nature旗下子刊《The ISME Journal》。延伸阅读:Nature Biotechnology报道最新基因组组装方法

该研究小组表示,ProDeGe适用于任何类型的基因组序列,在这项研究中,研究人员使用182个手动筛选的单一扩增基因组(SAGs)对其进行了校准,基因组序列来自两个公开的数据集——一个是Microbial Dark Matter project,另外一个是拟南芥植物数据。

点击了解康成生物芯片平台和高通量测序平台>>

快速去除序列污染
该小组报道称,这种工具将基因组序列分类为“干净的”或“污染的”,并以每百万碱基序列0.30 CPU核小时的速度运行。本文第一作者Kristin Tennessen指出:“一名专家手动净化1巨碱基序列,需要约六小时的时间。而使用ProDeGe则提速了约20倍。她补充说,如果手动用户是没有经验的,去除污染序列的速度提高的更快。

用于质量控制的污染序列去除工具
英属哥伦比亚大学DOE JGI 长期合作者、ProDeGe用户Steven Hallam说:“每年都产生大量的环境序列信息,单细胞基因组测序也越来越普及。因此,ProDeGe将填补QA/QC工作流程在个人用户和平台服务之间的一个关键差距。”

研究人员补充说,ProDeGe向“为培养微生物和未培养微生物基因组,建立一套质量控制标准”迈出了第一步。防止污染序列数据传播到公共数据库,是很有价值的,从而能避免产生误导性的分析。该程序的全自动化,可减轻科学家的人工筛选时间,产生可靠、干净的数据集,并首次使我们能够高通量地筛选数据集。因此,在新一代DNA测序和独立培养微生物基因组学的时代,ProDeGe代表了我们工具箱中的一个关键部件。

作为ProDeGe工具的使用者,Bigelow 实验室单细胞基因组中心主任Ramunas Stepanaukas和DOE JGI的合作者补充说,单细胞基因组学和宏基因组学已经成为未培养微生物生物学信息的主要来源,这是我们这个星球上大多数生态系统的主要成分。DNA污染风险,是单细胞基因组测序和基因组组装的一个重要挑战。预防、检测和去除单细胞基因组学和宏基因组学数据中的污染序列,对于了解我们星球的生态系统,是至关重要的。新的实验室和计算工具,如ProDeGe,是确保这些新兴研究领域中数据质量高标准的关键。

ProDeGe上传和分析数据集的Web界面,可以访问http://prodege.jgi-psf.org。Prodege独立软件可以从http://prodege.jgi-psf.org/downloads/src下载,可在Perl、R和NCBI Blast系统上运行。

(生物通:王英)

生物通推荐原文摘要:
ProDeGe: a computational protocol for fully automated decontamination of genomes
Abstract: Single amplified genomes and genomes assembled from metagenomes have enabled the exploration of uncultured microorganisms at an unprecedented scale. However, both these types of products are plagued by contamination. Since these genomes are now being generated in a high-throughput manner and sequences from them are propagating into public databases to drive novel scientific discoveries, rigorous quality controls and decontamination protocols are urgently needed. Here, we present ProDeGe (Protocol for fully automated Decontamination of Genomes), the first computational protocol for fully automated decontamination of draft genomes. ProDeGe classifies sequences into two classes—clean and contaminant—using a combination of homology and feature-based methodologies. On average, 84% of sequence from the non-target organism is removed from the data set (specificity) and 84% of the sequence from the target organism is retained (sensitivity). The procedure operates successfully at a rate of ~0.30 CPU core hours per megabase of sequence and can be applied to any type of genome sequence.


 

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号