基因组学软件Samtools的重要升级将支持全球数据共享

【字体: 时间:2014年08月19日 来源:生物通

编辑推荐:

  基因组数据量的快速上升,意味着基因组科学家们需要快速而有效的方法,来共享、分析和存储序列信息。最近,惠康基金会桑格研究所的计算机科学家们,公布了一个最流行的新一代序列分析工具——Samtools的重要升级,修订后的Samtools 1.0支持高效能的CRAM格式,使研究人员能够很容易地压缩和共享他们的数据,降低成本并促进世界范围内的合作。

  

生物通报道:基因组数据量的快速上升,意味着基因组科学家们需要快速而有效的方法,来共享、分析和存储序列信息。最近,惠康基金会桑格研究所的计算机科学家们,公布了一个最流行的新一代序列分析工具——Samtools的重要升级,修订后的Samtools 1.0支持高效能的CRAM格式,使研究人员能够很容易地压缩和共享他们的数据,降低成本并促进世界范围内的合作。

基因组学与健康全球联盟(其中桑格研究所是一个合作伙伴)已经设立,使研究人员和临床医生能够共同使用标准化和高效的DNA序列数据格式,来寻找疾病相关的遗传变异。除了以现有SAM和BAM文件格式存在的基因组序列信息之外,Samtools 1.0还可让研究人员以新的CRAM格式读取数据——最近被全球联盟采纳的数据格式。

利用CRAM的好处立竿见影:它提供10%到30%的减缩尺寸。此外,以类似于图像JPEG格式的方式,CRAM支持更大的压缩——多达100倍,“有损”模式保留了几乎所有的重要信息。

桑格研究所计算基因组学带头人Richard Durbin博士指出:“Samtools的这一重大改造,反映了我们支持序列数据全球使用的承诺。全世界的基因组科学,依赖快速有效的数据分析和存储,Samtools 1.0通过支持新的测序和分析工具,能满足这一需要。”

Samtools软件嵌入到许多生物信息学平台中,是成千上万基因组研究论文的基础。自2009年该程序产生以来,已被下载超过225,000次。这个新版本被充分地改写,以支持高效的基因组数据格式CRAM,添加了新的功能,并与其他工具整合的更干净。

桑格研究所的John Marshall博士指出:“Samtools 1.0将CRAM嵌入到基因组数据分析平台,并免去了额外处理的必要。这一发展,为这种高效的文件格式在基因组研究中的广泛使用,开辟了新的途径,并将带来更低的存储成本。”

之所以能够实现存储的明显减少,是因为桑格研究所和欧洲生物信息学研究所(EMBL)共同开发的合并数据压缩技术。

桑格研究所的James Bonfield称:“将CRAM融入到Samtools中,真的很令人兴奋。CRAM极大的灵活性,将允许一些新的压缩技术被合并,当其与Samtools 1.0结合时,将有助于永不过时的基因组数据存储和分析。”

Samtools 1.0可供使用的网址:http://www.htslib.org/

(生物通:王英)

延伸阅读:序列分析/生物信息学的十个手机应用程序

生物通推荐原文:
Wellcome Trust Sanger Institute. "Key upgrade to genomics software will underpin global data sharing." ScienceDaily. ScienceDaily, 15 August 2014.

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号