
-
生物通官微
陪你抓住生命科技
跳动的脉搏
科学家发布更快的原核基因组注释系统
【字体: 大 中 小 】 时间:2015年01月28日 来源:生物通
编辑推荐:
最近,美国乔治亚理工学院的研究人员与美国国家生物技术信息中心(NCBI)的同事合作,共同发布了一个新版本的基因组注释系统,每天能够分析超过2000个原核基因组,从而可以帮助全世界的研究人员加快原核基因组学为基础的研究。
生物通报道:随着新一代测序技术的不断发展,生物信息学成为当前生物学领域的研究热点,预计在未来它将变得越来越重要、越来越引起人们的重视。由于未来几年蛋白质和核酸的测序数据将以指数方式增加,科学家们在生物信息学领域也不断取得新的进展,例如:Nature子刊:新型强大的基因发现工具;Nature子刊:新型计算方法大大加速基因表达估算。
就在最近,美国乔治亚理工学院的研究人员与美国国家生物技术信息中心(NCBI)的同事合作,共同发布了一个新版本的基因组注释系统,每天能够分析超过2000个原核基因组,从而可以帮助全世界的研究人员加快原核基因组学为基础的研究。
在生物学中,原核生物一般被描述为一种缺乏明显核膜的微生物,其遗传物质包含在一个单一的DNA分子中。它们包括细菌和古生菌。
NCBI可运行Prokaryotic Genome Annotation Pipeline(PGAP)——一种高性能的软件系统,旨在分析这些微生物的基因组序列。随着越来越多的基因组变得可用——而且测序成本持续下降,高通量分析和注释流程的需要就变得非常迫切。
研究人员将NCBI与乔治亚理工学院的GeneMarkS+合并成PGAP系统,获得了这一最新进展。GeneMarkS+是由乔治亚理工大学教授、国际智能生物医学学会主席Mark Borodovsky的研究团队开发,该系统是一个自训练机器学习工具,用于新基因的识别,可以将基因组序列模式所揭示的内部证据与来自于已注释基因组的外部证据相结合。
Borodovsky教授说:“这一新系统可使研究人员能够获得非常重要的分析,几乎实时地持续集成所有证据来源的信息,而不是几天和几周。我们感到很激动,能够参与这项具有很高国际知名度的项目。”
在GeneMark+实现流程分析之前,该系统每天只能处理20个注释。
NCBI信息工程学部门主任Jim Ostell指出:“Borodovsky博士与NCBI的Tatiana Tatusova研究小组紧密合作,在NCBI注释流程的背景下,合并、改善了GeneMarkS+。它为NCBI和NCBI资源的用户,提供了一个关键核心的基础设施。”
PGAP使用GeneMarkS+连同蛋白质组学证据——来自于代表已经注释物种核心蛋白质补体的一大组直向同源基因簇。随着新的生物被测序,PGAP可通过挖掘现有的蛋白质信息而进行调节,以建立新的核心蛋白簇,并根据来自于所提交细菌基因组的不断增加的大量可用证据,反复改善其注释功能。
这一新系统提供了一种模块结构,可使新算法易于扩展。PGAP还提供执行和策略决定的广泛跟踪,从而让我们易于追溯回了解关键算法决定背后的证据。PGAP过程在以下网址得以描述:http://www.ncbi.nlm.nih.gov/genome/annotation_prok/process/。
PGAP可产生高品质的注释,旨在满足序列提交的INSDC标准,并遵守UniProt命名原则。作为GenBank序列提交的一部分,PGAP在NCBI对于细菌基因组是可用的,从而使其成为世界各地研究人员的一个宝贵资源。
(生物通:王英)
Georgia Institute of Technology. "Faster annotation system for prokaryotic genomes unveiled." ScienceDaily. ScienceDaily, 26 January 2015.
生物通微信公众号
知名企业招聘