基于映射的基因组大小估算方法研究:从植物到多物种的广泛应用

【字体: 时间:2025年05月15日 来源:BMC Genomics 3.5

编辑推荐:

  【编辑推荐】现有基因组大小估算方法(如 k-mer 分析)存在依赖高覆盖测序或仅适用于短读长等局限。本研究开发 Mapping-based Genome Size Estimation(MGSE)工具,基于长短读长映射高连续性组装,通过 BUSCO 等区域计算覆盖度估算基因组大小,在多物种中表现可靠,为基因组研究提供新手段。

  

准确测定基因组大小是生命科学领域的基础难题。尽管显微镜可观察染色体大小,但单细胞中 DNA 分子的总长度却难以获知。早期的生化方法如复性动力学、Feulgen 光度法等依赖参考基因组,而新一代测序技术催生的 k-mer 分析方法(如 GenomeScope2、findGSE)虽无需参考基因组,却面临高测序覆盖度要求,且无法适用于第三代测序的长读长数据。此外,植物基因组中高度重复区域(如着丝粒、核仁组织区)常无法完全组装,导致仅通过组装大小推断基因组大小存在局限性,不同方法对同一物种的估算结果甚至可相差 3 倍,如拟南芥(Arabidopsis thaliana)的估算值在 70 Mbp 至 211 Mbp 之间波动,真实大小始终成谜。


为解决上述问题,德国布伦瑞克工业大学(TU Braunschweig)和波恩大学(University of Bonn)的研究人员开展了一项创新研究。他们开发了一种基于读映射的基因组大小估算方法 ——Mapping-based Genome Size Estimation(MGSE),并在《BMC Genomics》发表论文,报道了该方法在植物、细菌、真菌和动物等多物种中的广泛应用及可靠表现。


研究主要采用以下关键技术方法:


  1. 数据获取:从 NCBI 和 Sequence Read Archive 获取拟南芥、甜菜(Beta vulgaris)、水稻(Oryza sativa)等多物种的长短读长测序数据及参考基因组组装序列。

  2. 读映射:短读长使用 BWA MEM,长读长使用 minimap2 将测序读段映射至参考基因组,生成 BAM 文件。

  3. 覆盖度计算:通过 bedtools 从 BAM 文件生成覆盖度文件,利用 BUSCO(Benchmarking Universal Single Copy Orthologs,基准单拷贝直系同源基因)筛选的单拷贝基因区域计算平均覆盖度。

  4. 基因组大小估算:基于公式N=L/C(N为基因组大小,L为测序碱基总量,C为平均覆盖度),使用 MGSE 脚本预测基因组大小,并与 k-mer 方法对比。


研究结果


1. 拟南芥基因组大小估算


对拟南芥 Col-0 和 Nd-1 品系分析显示,基于 BUSCO 单拷贝基因的 MGSE 估算值(约 135-156 Mbp)接近已报道的高质量组装大小(如 Col-0 的 148 Mbp),且变异度低于 k-mer 方法(如 GenomeScope2 预测范围更广,gce 值偏小)。长读长数据(14 个 GABI-Kat 品系)分析表明,MGSE 可有效处理长读长,尽管因插入缺失(InDels)存在轻微偏差,但仍在合理范围内。对 1028 份拟南芥品系的大规模分析显示,MGSE 预测值集中在 120-160 Mbp,显著减少 k-mer 方法常见的极端值(如 < 50 Mbp 的假象)。


2. 甜菜基因组大小估算


甜菜基因组复杂且富含重复序列,现有组装大小为 567-596 Mbp,但真实大小因未组装重复序列而更大(预测 600-758 Mbp)。MGSE 基于 BUSCO 的估算值(约 671-712 Mbp)优于 k-mer 方法(GenomeScope2 和 gce 低估至 < 600 Mbp),且稳定性更高,非 BUSCO 区域(如全基因)估算因重复序列干扰表现较差,凸显 BUSCO 区域的重要性。


3. 水稻及多物种适用性验证


水稻(Nipponbare 品系)的 MGSE 估算值(382-417 Mbp)与最新完整组装(385.7 Mbp)高度吻合,长读长数据(ONT、PacBio)的估算精度优于短读长。在更广的物种范围内,MGSE 在短柄草(Brachypodium distachyon)、番茄(Solanum lycopersicum)、葡萄(Vitis vinifera)等植物,以及大肠杆菌(Escherichia coli)、酵母(Saccharomyces cerevisiae)、秀丽隐杆线虫(Caenorhabditis elegans)等非植物物种中均表现可靠,尤其在多倍体(如草莓、棉花)中,通过 “--ignore” 参数关闭高覆盖 contigs 过滤可提升准确性。


4. 参数优化与性能分析


覆盖度阈值分析表明,MGSE 对长读长和短读长的最低覆盖要求分别为~3× 和~5×,显著低于 k-mer 方法的~17×。运行时间上,尽管 MGSE 总耗时高于 GenomeScope2,但利用预先生成的 BAM 文件可跳过读映射步骤,大幅提升效率,且在处理大数据集时两者耗时趋近。


结论与讨论


MGSE 通过读映射至高连续性组装,结合 BUSCO 单拷贝基因区域的覆盖度分析,为基因组大小估算提供了一种不依赖 k-mer、适用于长短读长的正交方法。其优势包括:


  • 低覆盖要求:仅需 5 倍覆盖即可实现可靠估算,适用于资源有限的测序项目。

  • 长读长兼容性:突破 k-mer 方法对长读长的限制,契合第三代测序技术趋势。

  • 抗污染能力:通过过滤未映射读段,可排除细菌、真菌等污染干扰,无需预先识别污染物。

  • 多物种通用性:在植物、动物、微生物中均表现良好,尤其为多倍体和高重复基因组的研究提供新工具。


尽管 MGSE 依赖参考基因组组装,但其所需的高连续性组装正成为基因组测序的标准产出,且读映射步骤常作为组装质量控制的一部分,因此实际应用中输入数据易得。未来随着长读长测序技术的普及,MGSE 有望成为基因组大小估算的核心方法之一,为理解物种基因组结构、进化及功能提供关键基础数据。


相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号