全基因组测序的数据分析:新进展,新挑战

【字体: 时间:2019年11月25日 来源:生物通

编辑推荐:

  全基因组测序(WGS)已成为一种稀松平常的工具,可以帮助人们获得某个生物体或某位患者的完整基因组密码。然而,数据分析却好似一堵无形的高墙,阻碍了WGS在生物医学界的广泛使用。

全基因组测序(WGS)已成为一种稀松平常的工具,可以帮助人们获得某个生物体或某位患者的完整基因组密码。然而,数据分析却好似一堵无形的高墙,阻碍了WGS在生物医学界的广泛使用。WGS生成了海量的数据,让人们往往不知所措。

为了解释这些数据,分析人员需要在多个步骤中使用不同的软件工具,将序列拼接在一起,寻找遗传代码中的变异,并将其与参考基因组进行比较。这通常需要几个星期的时间,但随着软件的创新和云计算的出现,WGS的分析速度大大加快,成本也更低。

当然,对大多数实验室而言,WGS的数据分析仍然困难重重。第一个原因是WGS仍在不断发展,尽管 “第二代”测序技术被广泛使用,比如Illumina平台,但PacBio和Oxford Nanopore Technologies等公司开发的“第三代”测序技术也开始流行起来。第二个原因是,无论是第二代还是第三代的数据,WGS分析所需的软件都在不断发展。

如今,开源软件的数量已经超过了市售软件,因为研究人员掌握的算法在不断变化。人们很容易获取多个分析工具,但是没有一种软件方案是普遍适用的。有些研究人员决定自己编写软件,有些研究人员则选择将分析工作外包。下面,我们就来看看这个快速发展的领域有哪些新进展。

一种工具并不够

哈佛医学院的助理教授Sek Won Kong就是那个喜欢自己动手的人。他主要对罕见的遗传病开展转化基因组学研究和临床全基因组测序。Kong通常在研究中使用多种方法来分析WGS数据。“没有任何一种分析管道能够执行所有的分析,因此我们必须使用多种不同的工具,”他说。

Kong及其同事对全基因组测序的多个分析管道进行比较分析,以减少假阳性结果。他们在《Scientific Reports》上发表了这项成果1。Kong表示:“我通常使用三到四种类型的软件来分析基因组,这是我在比较分析后选择的。”

他们分析了罕见遗传病和神经发育障碍患者的WGS数据,并将此信息与代谢组学和转录组学数据相结合。“这类研究没有现成的工具,因此有时候我必须自己开发工具,以开展某些类型的研究,”他指出,这种状况在开展WGS分析的研究人员中并不罕见。“有些人与生物信息学家合作开发自己的软件,以帮助回答他们的问题。”

数据分析的“代沟”

科学家面临的数据分析挑战可能有所不同,这取决于他们的数据是第二代还是第三代。人和未来生物科技公司(Genetalks Biotech)的首席技术官宋卓表示:“对于第二代的WGS数据而言,最大的挑战在于映射和变异检出的速度,特别是对于大规模群体的数据。”宋卓通常使用“BWA+GATK”来分析二代WGS数据。

BWA(Burrows-Wheeler Aligner)是一种将序列映射到大型参考基因组的软件2。GATK(Genome Analysis Toolkit)是由Broad研究所开发的,可通过高通量测序数据来分析变异信息3

宋卓通过计算的加速来解决速度问题。他表示:“我们利用自制的FPGA加速芯片来加速软件运行,就像Edico Genome的DRAGEN一样。”DRAGEN Bio-IT平台4利用现场可编程门阵列(FPGA)技术,将NGS数据分析从几小时缩短到几分钟。

去年,Illumina收购了Edico Genome公司,将DRAGEN整合到Illumina的基因组数据分析工具中。据悉,它能够在25分钟内以30倍的覆盖度处理整个人类基因组,并创造了基因组数据分析的两项吉尼斯世界纪录。今年9月,Illumina与Broad研究所宣布了一项合作开发开源软件的计划,将结合DRAGEN和GATK的优势。

第三代WGS数据的分析则面临“成长的烦恼”,因为组装长序列的算法仍在积极开发中。“最大的挑战是让第三代WGS分析结果保持最新,”宋卓谈道。“研究人员可能不得不重新计算或组合不同算法的数据。”他使用两种类型的软件来组装第三代WGS数据:wtdbg2 5和CANU 6。据他介绍,wtdbg2是新的,速度很快,而CANU比较旧但广泛使用。

云端的数据分析

全基因组测序若想应用在临床研究甚至治疗中,那还需要不断减少分析的时间和成本。一种解决方案是将云计算应用于WGS的大规模计算。宋卓及其同事不久前在《BMC Genomics》上发表了一种名为GT-WGS的工具7

这个工具在国际基因组学大会举办的高性能基因组计算比赛中获得第一名。GT-WGS在短短几分钟内即可返回结果,其准确性可与著名的GATK媲美。它利用亚马逊网络服务(AWS)的动态定价优势来大大降低大规模WGS分析的成本。

宋卓及其同事还开发了分析方案的并行云计算版本。基于FPGA的加速系统GTX.one适用于二代WGS数据的分析,而CANU的并行云计算版本可用于三代的WGS数据。他们还开发了GTX.Zip工具8,以协助数据的压缩和传输。

“好消息是,随着数据量的增加,与规模有关的问题将很快得到解决,”宋卓说。“将生物信息学与高性能计算相结合,才是未来。”

参考文献

1. Hwang, K., Lee, I., Li, H. et al. Comparative analysis of whole-genome sequencing pipelines to minimize false negative findings. Sci Rep 9, 3219 (2019) doi:10.1038/s41598-019-39108-2
2. Burrows-Wheeler Aligner
3. Genome Analysis Toolkit
4. Illumina DRAGEN Bio-IT Platform
5. Ruan, J, Li, H. Fast and accurate long-read assembly with wtdbg2. bioRxiv. January 26, 2019.
6. Koren, S. et al. Canu: scalable and accurate long-read assembly via adaptive k-mer weighting and repeat separation. Genome res. 2017. 27:722-736.
7. Wang, Y. et al. GT-WGS: an efficient and economic tool for large-scale WGS analysis based on the AWS cloud service. BMC Genomics 2018. 19(Suppl 1): 959.
8. Genetalks/GTZ

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号