-
生物通官微
陪你抓住生命科技
跳动的脉搏
对付无法培养的微生物 宏基因组学研究策略[创新技巧]
【字体: 大 中 小 】 时间:2014年05月29日 来源:生物通
编辑推荐:
与大肠杆菌不同,绝大多数微生物不能在琼脂板或液体培养基中培养,这使得科学家无法研究它们的生物学、生物化学以及对生态、健康和疾病的贡献。Schloss和Handelsman将无法培养微生物的问题比喻成希腊神话中的戈尔迪之结,并提出了两个基本的解决方案。一是要弄清楚如何培养这些无法培养的东西。二是用利剑斩断这个结,这种策略被称为宏基因组学。
说到细菌,我们总认为我们了解得不少。其实,我们知道的并不多。与大肠杆菌不同,绝大多数微生物不能在琼脂板或液体培养基中培养,这使得科学家无法研究它们的生物学、生物化学以及对生态、健康和疾病的贡献。
“环境中超过99%的原核生物无法在实验室中培养,这种现象限制了我们对微生物生理学、遗传学和群落生态学的了解,”Patrick Schloss和Jo Handelsman在2005年的综述中这样写道1。
Schloss和Handelsman将无法培养微生物的问题比喻成希腊神话中的戈尔迪之结,并提出了两个基本的解决方案。一是要弄清楚如何培养这些无法培养的东西。二是用利剑斩断这个结,这种策略被称为宏基因组学。
对付无法培养的微生物
宏基因组学,有时也被称为群落基因组学,利用DNA测序来确定哪些物种存在,以及它们理论上能做什么。这是当今用来研究无法培养微生物的遗传组成的两个策略之一,另一个是单细胞测序。
据美国能源部联合基因组研究所(JGI)微生物基因组计划的领导人Tanja Woyke介绍,宏基因组学与单细胞基因组学是互补的技术。JGI的微生物基因组计划资助并开展宏基因组学研究,而实际上,大多数JGI申请人都申请资金开展两种分析。单细胞基因组学既昂贵、又繁琐,难以应用到大量细胞。但它提供了表型和功能之间的直接联系,确定一个特定细胞包含一组特定的遗传指令。
而宏基因组学研究从技术上说更为简单 – “几乎所有样品都可用于宏基因组学,但单细胞基因组学就不一定是这样,”Woyke指出 – 但数据分析的问题也是非常复杂的,因为片段来自群落中的每个成员,而很多时候,这些片段的长度只有几百个碱基。因此,很难将宏基因组学的数据组装成实质性大小的contigs,就更不用说将它们组装成整个基因组了。
Woyke指出,土壤群落特别复杂,在某些情况下,组装成contigs的片段不足10%。某些复杂度较低的样品,比如来自温泉的样品,更容易处理。“有时,50%至90%的reads组装成contigs,”她谈道。
实际上,宏基因组学包括两种不同的测序策略。靶向宏基因组学关注特定的基因序列,通常是16S核糖体RNA基因,它提供了系统发育的“条形码”,可用来调查群落的组成。鸟枪法宏基因组学对一切测序,这不仅仅了解哪些微生物存在,还研究它们的功能编码潜力。
例如,454生命科学的产品经理Mark Driscoll解释道:“如果你知道矿井中的微生物能消化金属和毒素,那么鉴定出微生物这很好,但你可能还想要确定那些帮助消化金属的基因。”
Handelsman实验室最近的一项研究是克隆牛粪中细菌的DNA片段,并利用那些文库来鉴定含有抗生素抗性基因的克隆。他们在Pacific Biosciences测序仪上对那些文库进行测序2。
ACGT是美国一家基因组分析服务供应商。据科学主管Semyon Rubinchik介绍,客户可以要求靶向或鸟枪宏基因组学方法。“到目前为止,大部分要求靶向分析,”他说。在两种情况下,样品都在Illumina的平台上测序,产生长度在100-300 bp的reads。对于靶向方法及使用MiSeq,长达550 bp的片段也是可能的。在鸟枪法测序数据的de novo组装之后,ACGT产生的最长contig在100 kb左右。
读长的问题
每个研究都是不同的,在JGI,典型的宏基因组分析需要Illumina HiSeq 2000的一个通道,产生50-60 Gb的序列。在这个数据水平,高丰度的物种可以开始组装,而低丰度的物种仍是片段化的。
HiSeq是个读长较短的测序仪。它产生数十亿个reads,但长度只有几百个碱基。那些读长较长的测序技术,比如454生命科学和PacBio所提供的,每次运行所产生的reads少得多,但读长优势明显。454的读长在800-1000 bp,而PacBio更是>8500 bp,这让组装更容易。实际上,许多研究人员混用两种策略,利用短读长技术来收集尽可能多的数据,利用长读长方法来支持它们的组装。
Pacific Biosciences的首席科学官Jonas Korlach在今年2月的AGBT会议上发表演讲,介绍如何在一个模拟的微生物群落上应用他们公司的技术,这个群落包含21种细菌。“我们能够将半数以上的物种组装成最终的染色体,以及一些染色体外的质粒,”他说。相比之下,利用短读长的技术,没有一个完整的基因组,每个基因组都有50-100个不同的片段。
此外,他指出,作为单分子方法,PacBio的SMRT技术避免了其他以扩增为基础的技术的偏向。“我们捕获了所有细菌基因组的90%以上,而竞争性的短读长方法错过了大约25%的基因组内容,”他说。
工具
关于宏基因组测序,并没有什么神奇之处。关键在于高效提取出样品中所有或大多数微生物的基因组DNA。“提取方法并不是唯一的,”Woyke说。“每个样品都不同,分类也不同,你采用5种方法提取1个样品,可能得到5个不同的结果。”
许多方法都使用机械破碎(玻璃珠)来破碎大部分的细胞。这也是地球微生物组计划(Earth Microbiome Project)的标准操作。不过,Woyke指出,玻璃珠可能是一把双刃剑。坚硬的细胞最终会破碎,但对于那些容易裂解的细胞,DNA会被剪切。
不过与其他组学技术一样,宏基因组学的难点并不在于数据采集,而是数据分析。近年来,分析工具如雨后春笋般涌现。Woyke建议使用JGI一种叫IMG/M的工具,它让用户能够对数据进行注释,并与其他宏基因组、单细胞和细菌分离株的数据集进行比较。ACGT的研究人员则倾向于使用Illumina的MiSeq Reporter Metagenomics Workflow或MetAMOS,一种de novo组装和变异分析工具。
Driscoll建议,无论你使用哪种方法和工具,你一开始都必须有明确的实验目标。16S rRNA研究的流程与靶向宏基因组学研究完全不同,且数据量要小得多。(作者:Jeffrey M. Perkel/生物通编译)
参考文献
[1] Schloss, PD, Handelsman, J, “Metagenomics for studying unculturable microorganisms: Cutting the Gordian knot,” Genome Biology, 6:229, 2005. [PubMed ID: 16086859]
[2] Wichmann, F, et al., “Diverse antibiotic resistance genes in dairy cow manure,” mBio, 5[2]:e01017-13, 2014. [PubMed ID: 24757214]