《The Plant Genome》:Validation of the International Weed Genomics Consortium genome annotation pipeline through reannotation of the model species Arabidopsis thaliana
编辑推荐:
国际杂草基因组学联盟(International Weed Genomics Consortium, IWGC)已对30余种杂草物种进行基因组测序与注释,为理解其生物学特性、进化及适应性积累了基因组资源。本研究旨在通过以不同数量和类型的外部证据数据对模式物种拟
国际杂草基因组学联盟(International Weed Genomics Consortium, IWGC)已对30余种杂草物种进行基因组测序与注释,为理解其生物学特性、进化及适应性积累了基因组资源。本研究旨在通过以不同数量和类型的外部证据数据对模式物种拟南芥(Arabidopsis thaliana)基因组进行重注释,评估IWGC基于异构体测序(Iso-seq)的半自动基因组注释流程,并测定输入数据变化对注释完整性与质量的影响。重注释试验比较了以下因素的影响:(1)Iso-seq读段的数量与来源;(2)来自植物学上近缘或远缘物种的注释蛋白;(3)输入注释程序MAKER-P的蛋白质数量。各重注释结果之间及与已发表A. thaliana基因组注释进行了比较。结果表明,在结合Iso-seq数据与近缘物种蛋白的情况下,IWGC注释流程无需人工校正即可注释几乎所有基因。总体而言,在基因模型预测步骤中,输入蛋白数量越多,尤其是来自近缘物种的蛋白,产生的注释基因越准确;此外,多种近缘物种蛋白的组合可增加注释基因数量。当使用大量近缘物种蛋白时,Iso-seq读段的数量或来源未产生显著影响。该流程对其他作物物种基因组也注释了近90%的基因。由此可见,IWGC基因组注释流程在A. thaliana重注释中具有稳健性,因此有望在迄今已应用的多种非模式杂草物种中表现良好。
研究背景与意义:目前已发表至少4604个植物基因组、涵盖1482个物种,但高影响力的农业杂草参考基因组仍极为匮乏,制约了对杂草生物学、进化与适应性机制的深入研究。国际杂草基因组学联盟(International Weed Genomics Consortium, IWGC)正通过公私合作,对国际上最重要的杂草物种进行测序、组装与参考基因组注释,涉及二倍体及异源多倍体(allopolyploid)等复杂基因组。该研究发表于《The Plant Genome》,旨在通过评估IWGC半自动基因组注释流程,为非模式杂草提供可靠、可重复的注释工具,并降低对费时费力的人工校正的依赖。
开展该研究的直接原因在于:杂草基因组最重要的应用之一是解析除草剂抗性机制,包括靶标蛋白编码基因突变、基因组结构变异以及细胞色素P450单加氧酶(cytochrome P450 monooxygenase)、谷胱甘肽-S-转移酶(glutathione-S-transferase, GST)和三磷酸腺苷结合盒转运蛋白(ATP-binding cassette, ABC)等代谢基因家族的底物宽泛性变化。这些基因家族成员众多、序列一致性高,给准确注释带来巨大挑战,而准确的基因注释又是RNA测序和全基因组关联分析(genome-wide association study, GWAS)等下游研究的前提。此外,转座子插入、染色体外环状DNA、基因串联重复等基因组结构变异均与抗性演化密切相关;雌雄异株等杂草生物学问题也依赖于高质量基因组。IWGC为获得染色体级别、低间隙的组装,综合使用了Pacific Biosciences(PacBio)HiFi读段、Oxford Nanopore超长读段、Hi-C(high-throughput chromosome conformation capture)接触图谱和光学图谱等技术。在基因模型预测上,IWGC主要采用PacBio HiFi全长RNA分子的异构体测序(Iso-seq)读段,并将其与近缘物种蛋白等外部证据以及ab initio(从头预测)等内部证据相结合,以避免单一证据来源的局限。鉴于基因组注释流程依赖多种软件、算法与数据库,构建标准化的半自动流程对资源有限的非模式杂草研究尤为必要。因此,研究人员以注释最完整的模式物种A. thaliana为对象,通过改变外部证据输入对IWGC注释流程进行系统验证,并开发相应的Singularity容器版本。
主要技术方法如下:研究人员以A. thaliana Col-0及玉米(Zea mays)、高粱(Sorghum bicolor)、大豆(Glycine max)、番茄(Solanum lycopersicum)、马铃薯(Solanum tuberosum)为对象,对叶、花、根、角果、幼苗及冷、热、水涝和病原胁迫来源的Iso-seq reads进行pbmm2比对与isoseq3折叠;结合近缘物种蛋白,以RepeatModeler、RepeatMasker和BEDtools完成重复序列注释与soft masking后,用MAKER-P预测基因模型;功能注释采用MultiLoc2、SignalP、TargetP、HMMER/Pfam、iprscan5及MMSeqs2;流程以Docker/Singularity配合Snakemake进行容器化;注释质量评估使用Benchmarking Universal Single-Copy Orthologs(BUSCO)与protein structure audit oriented evaluation(PSAURON)。
研究结果:
(1)Iso-seq读段来源与数量的影响。研究人员比较了分别来自花、叶、根、角果以及不同生物和非生物胁迫处理的Iso-seq读段,并组合为Bulk_1至Bulk_4混合样本。结果显示,不同组织来源或增加胁迫处理对总基因注释数影响很小。以A. thaliana蛋白为输入时,即使仅使用Bulk_2的0.5%子集(98,528条读段),也可注释96%的基因,而100%子集(19,735,858条读段)为98%;若使用A. arenosa+A. suecica+B. napus+C. sativa组合蛋白,0.5%与1%读段子集注释率略降至92%–94%,20%–100%读段子集与使用A. thaliana蛋白的差异仅0.4%。
(2)蛋白证据数量与来源的影响。在固定Iso-seq输入下,研究人员对314,397条组合蛋白进行10%至100%的子集化。蛋白数量与注释完整性呈正相关:10%蛋白子集(31,599条)注释86.5%的基因,100%蛋白子集注释97.5%的基因。相比之下,单独使用Brassica napus蛋白仅能注释85%–89%的基因;完全无蛋白证据、仅依靠Iso-seq时,注释率为24%–67%。
(3)Iso-seq读段与蛋白证据的相对贡献。将10%与80%的读段和蛋白子集交叉组合后发现:10%读段+10%蛋白可注释84%的基因,80%读段+80%蛋白可注释97%的基因,10%读段+80%蛋白可达96%,而80%读段+10%蛋白仅为86%。BUSCO完整性(completeness, C)评估显示,10%读段+80%蛋白组合的C值为96%,80%读段+10%蛋白组合约为89%。这表明蛋白证据数量对注释完整性的影响大于Iso-seq读段数量。
(4)以近缘物种转录本与蛋白替代Iso-seq读段。在模拟无A. thaliana Iso-seq数据的情景下,分别使用Camelina sativa、Capsella rubella、Brassica napus三种物种的转录本与蛋白可注释83%–88%的基因,三者组合可提升至90%;以A. thaliana自身转录本与蛋白为对照则可达99%。
(5)蛋白物种亲缘关系对注释覆盖的影响。研究人员按植物学远近选用13个物种的蛋白。单独使用亲缘关系较近的C. sativa、C. rubella、B. napus蛋白分别可注释91%、89%和89%的基因;而亲缘关系较远的Gossypium laxum、Cucumis melo、Glycine max蛋白分别仅能注释78%、77%和79%。三种近缘蛋白组合可注释93%的基因,三种远缘蛋白组合仅为81%。组合多种近缘蛋白比单一物种至少提高2%。总体而言,近缘物种的高质量蛋白更有利于获得完整注释。BUSCO C值为90%–92%,PSAURON评分显示所有情景下超过95%的预测蛋白为正确可读框。
(6)作物物种基因组注释扩展验证。IWGC流程对玉米和高粱两个禾本科(Poaceae)物种分别注释了公开注释基因数的87.2%和90.2%;豆科(Fabaceae)大豆为94.6%;茄科(Solanaceae)番茄为89.7%,马铃薯为100.5%。这些结果表明该流程可跨科应用于作物基因组,并具有较高的注释稳健性。
讨论与结论:IWGC基因组注释流程将现有公开的标准化工具整合为容器化应用,适用于二倍体乃至多倍体非模式杂草物种。在最佳外部证据条件下,自动化流程可达到与人工校正相当的基因注释数量。全长转录本测序有助于改善剪接异构体识别并克服短读段的局限,但Iso-seq数据量仅在缺乏近缘蛋白证据时才显著提升注释率,且读段长度与质量比深度更重要。相反,流程对蛋白证据的数量和物种亲缘关系较为敏感:高质量、大量、来自近缘物种的蛋白是提高基因模型预测准确性的最关键因素。组合多个远缘物种蛋白可在一定程度上弥补近缘蛋白不足,但可能传播已有注释错误。作物物种验证显示注释效率在科间及科内存在差异,马铃薯达到与公开注释相当的水平。研究人员指出,随着人工智能(artificial intelligence, AI)工具的发展,未来如能经过充分验证,将其整合进流程有望进一步提升注释稳健性。
研究结论:IWGC基因组注释流程在A. thaliana重注释中表现稳健高效。与增加Iso-seq读段数量相比,增加用作证据的蛋白数量对提高注释基因数更有效;除蛋白数量外,使用近缘物种的蛋白对于获得高质量注释同样关键。该流程已被用于IWGC多种非模式杂草物种基因组注释,并以开源工具形式提供使用。