参考基因组辅助的群体规模基因组组装工具RAGA:高效提升组装质量的新方法

【字体: 时间:2025年08月13日 来源:Horticulture Research 8.5

编辑推荐:

  为解决群体规模基因组组装成本高、耗时长的问题,研究人员开发了参考基因组辅助组装工具RAGA(Reference-Assisted Genome Assembly)。该研究通过整合PacBio HiFi reads和现有参考基因组,生成替代长序列来优化从头组装,显著减少了contig数量、填补了基因组间隙并纠正了组装错误。RAGA在拟南芥、水稻等多个物种中验证了其有效性,为大规模基因组研究提供了高效解决方案,相关成果发表于《Horticulture Research》。

  

在基因组学研究领域,获得高质量的群体规模参考基因组是推动泛基因组研究的基础。然而,传统的从头组装方法面临两大挑战:一是使用PacBio HiFi和Oxford Nanopore(ONT)超长读长相结合的混合测序策略成本高昂;二是现有优化工具如DEGAP、TGS-gapcloser等在处理大规模多样化数据集时往往需要复杂的样本特异性调整,限制了可扩展性。这些问题严重阻碍了泛基因组时代对物种遗传变异和进化机制的深入探索。

针对这些技术瓶颈,广西亚热带农业生物资源保护与利用国家重点实验室(广西大学)的研究团队开发了创新性工具RAGA(Reference-Assisted Genome Assembly)。这项研究通过巧妙利用同种或近缘物种的参考基因组,结合PacBio HiFi reads生成替代长序列,成功实现了不依赖ONT数据的高质量基因组组装。研究成果发表在植物科学领域权威期刊《Horticulture Research》上,为大规模基因组研究提供了经济高效的解决方案。

研究采用四步技术路线:参考基因组校正(使用racon工具基于目标HiFi reads进行抛光)、序列比对(采用minimap2和RagTag进行多层级比对)、局部混合组装(基于hifiasm(UL)的模块化组装)和严格质量过滤(通过bedtools和samtools进行多维度筛选)。测试样本涵盖拟南芥80个品种、水稻多个栽培种(MH63、华占等)以及异源多倍体杂草(Echinochloa colona和Saccharum spontaneum)。

RAGA构建原理

研究团队设计的四阶段流程(参考基因组校正-序列比对-局部混合组装-质量过滤)能有效避免参考基因组引入的偏差。关键创新在于将参考基因组转化为"虚拟ONT reads"参与组装,而非传统 scaffolding 方法。在拟南芥测试中,RAGA生成的替代长序列能延伸至错误组装区域,通过重新连接断裂的HiFi reads覆盖区来纠正结构错误。

拟南芥群体测试

对80个拟南芥品种的分析显示,RAGA平均减少293个contig,54个品种的contig N50提升1.66 Mb。特别值得注意的是,优化后的组装间隙减少75个,gap-free染色体增加3条。质量值(QV)平均提高3.71,且BUSCO评估显示遗传完整性保持良好。引人注目的是,着丝粒特异性序列CEN180在>1 Mb contigs中的比例显著增加,证明RAGA能有效提升着丝粒区域的连续性。

水稻基因组验证

以MH63品种为例,RAGA使用6个水稻T2T参考基因组(包括TIP、ZS97等)生成的替代长序列,成功填补了4个基因组间隙。特别解决了染色体1上因错误融合导致的2.87 Mb跨染色体错误组装问题。k-mer分析显示单拷贝完整率提升,冗余度降低。在存在5 Mb结构变异的染色体6区域,RAGA准确识别变异边界而未引入错误序列,证实其处理结构变异的可靠性。

跨物种应用评估

即使使用亲缘较远的参考基因组(如用水稻基因组指导E. colona组装),RAGA仍使contig N50从3.56 Mb提升至6.06 Mb,间隙减少1,522个。甘蔗S. spontaneum的组装质量值(QV)从55.40提升至56.18,证明该方法在非模式生物中的适用性。

已发表基因组的优化

在二倍体西洋梨(P. communis)案例中,RAGA不仅减少42个间隙,还纠正了已发表基因组中7 Mb大小的倒位错误。HiFi reads覆盖分析证实,优化后的组装在倒位区域呈现连续覆盖,而原基因组存在明显断裂点。不过对多倍体(如三倍体香蕉M. acuminata)的优化效果相对有限,提示多倍体组装仍需额外策略。

这项研究的重要意义在于:首先,RAGA突破了群体规模基因组组装的经济性瓶颈,仅需PacBio HiFi数据即可达到近似ONT混合组装的質量;其次,严格的序列过滤机制确保参考基因组信息仅起引导作用,不会引入外源序列;最后,工具的开源性(https://github.com/wzxie/RAGA)使其能广泛应用于园艺作物等经济物种的泛基因组研究。

研究也客观指出了当前局限:对多倍体基因组的优化效果有限;当参考与目标基因组亲缘过远时(如跨属物种),优化效果会降低;且不适用于已进行HiFi-ONT混合组装的情况。未来研究方向包括开发针对多倍体的单倍型分型预处理流程,以及探索与NGS数据的兼容性。这些突破将进一步推动RAGA在复杂基因组研究中的应用广度。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号