沉迷大数据,NGS挑战重重[心得点评]

【字体: 时间:2015年05月22日 来源:生物通

编辑推荐:

  在这个时代,各行各业都对大数据痴迷,基因组学也不例外。也许,这源于一种与生俱来的需求,我们渴望了解遗传组成如何控制人类生活的方方面面。近日,Jeffrey S. Buguliskis博士在GEN网站上讨论了大数据带来的挑战。

在这个时代,各行各业都对大数据痴迷,基因组学也不例外。也许,这源于一种与生俱来的需求,我们渴望了解遗传组成如何控制人类生活的方方面面。近日,Jeffrey S. Buguliskis博士在GEN网站上讨论了大数据带来的挑战。

Buguliskis认为,基因组学领域对信息的需求开始于二十年前,也就是芯片技术出现的时候。这是科学家第一次引入大规模的基因组数据集。当然,这仅仅是开始。2003年人类基因组计划的完成不仅让科学家去寻找更经济的方法进行测序,也进一步激发了他们分析大数据集的胃口。

短短数年,迅速发展的新一代测序(NGS)平台产生了呈指数增长的数据,比人们想象得更快速,也更经济。GenoSpace的COO Daniel Meyer谈道:“自2005年以来,测序成本已下降了四个数量级,而新技术让我们能够比以前更快地产生更多数据。随着数据生成接近商品化,最大的挑战已经转移到有效的分析和解释。”

的确,NGS提高了测序的速度,降低了测序的成本。然而,它并没有解决与数据采集有关的任何问题,不仅如此,它还大大增加了文件的大小。NGS的读长更短,就全基因组测序而言大约在50-100 bp,但读取数量惊人,大大超过传统的Sanger测序。此外,各个国际联盟也在开展规模宏大的项目,比如千人基因组计划,英国的10K计划,动辄产生PB级的数据。

Buguliskis认为,在许多方面,生命科学的大数据是基础设施的问题。大多数研究人员没有能力分析现代NGS平台产生的数据集。例如,对于读长100 bp和50倍覆盖度的外显子组测序运行,原始数据大约在1.-1.5 TB,而多次重复后的数据大约需要3-5 TB的存储空间。即使计算机存储器的价格在不断走低,但要有足够的硬盘空间去存储多次运行的数据也并非易事。

虽然数据采集和管理是许多机构关注的问题,但NGS要想成为精准医学的一部分,绊脚石可不止这些。有人认为,NGS的各个领域都需要标准化,才能成为临床医学中的强大工具。

此外,科学家也一直在寻找更轻松、更快速且更高效的分析方法。“我相信,云计算及通过高度可扩展的计算资源共同查找大数据的能力正对简化数据分析产生积极的影响,随着更多数据以及更广泛的分析程序迁移到云端,这种趋势将继续下去,”Illumina的副总裁Scott Kahn谈道。

同时,测序方面的进步也在间接地协助数据分析流,实现更加准确的读取比对,并开辟了新的研究方法。AllSeq的首席科学官Shawn Baker认为:“最有意思的事情是长读取。获得真正的长读取(>10 kb)将明显改善比对过程,实现单体型等过去不可能的新分析。长读取技术目前已上市,不过它与短读取平台相比要贵一到两个数量级。”

最后,作者也提到了第三代测序技术。这种方法跳过了DNA扩增,避免了PCR偏向,让遗传物质在单分子水平上直接测序。目前,只有几家公司提供这种测序平台,而且价格较高。(生物通 余亮)

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号