基于映射的基因组大小估算方法研究：从植物到多物种的广泛应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年05月15日 来源：BMC Genomics 3.5

编辑推荐：

　　【编辑推荐】现有基因组大小估算方法（如 k-mer 分析）存在依赖高覆盖测序或仅适用于短读长等局限。本研究开发 Mapping-based Genome Size Estimation（MGSE）工具，基于长短读长映射高连续性组装，通过 BUSCO 等区域计算覆盖度估算基因组大小，在多物种中表现可靠，为基因组研究提供新手段。

准确测定基因组大小是生命科学领域的基础难题。尽管显微镜可观察染色体大小，但单细胞中 DNA 分子的总长度却难以获知。早期的生化方法如复性动力学、Feulgen 光度法等依赖参考基因组，而新一代测序技术催生的 k-mer 分析方法（如 GenomeScope2、findGSE）虽无需参考基因组，却面临高测序覆盖度要求，且无法适用于第三代测序的长读长数据。此外，植物基因组中高度重复区域（如着丝粒、核仁组织区）常无法完全组装，导致仅通过组装大小推断基因组大小存在局限性，不同方法对同一物种的估算结果甚至可相差 3 倍，如拟南芥（Arabidopsis thaliana）的估算值在 70 Mbp 至 211 Mbp 之间波动，真实大小始终成谜。

为解决上述问题，德国布伦瑞克工业大学（TU Braunschweig）和波恩大学（University of Bonn）的研究人员开展了一项创新研究。他们开发了一种基于读映射的基因组大小估算方法 ——Mapping-based Genome Size Estimation（MGSE），并在《BMC Genomics》发表论文，报道了该方法在植物、细菌、真菌和动物等多物种中的广泛应用及可靠表现。

研究主要采用以下关键技术方法：

数据获取：从 NCBI 和 Sequence Read Archive 获取拟南芥、甜菜（Beta vulgaris）、水稻（Oryza sativa）等多物种的长短读长测序数据及参考基因组组装序列。
读映射：短读长使用 BWA MEM，长读长使用 minimap2 将测序读段映射至参考基因组，生成 BAM 文件。
覆盖度计算：通过 bedtools 从 BAM 文件生成覆盖度文件，利用 BUSCO（Benchmarking Universal Single Copy Orthologs，基准单拷贝直系同源基因）筛选的单拷贝基因区域计算平均覆盖度。
基因组大小估算：基于公式N=L/C（N为基因组大小，L为测序碱基总量，C为平均覆盖度），使用 MGSE 脚本预测基因组大小，并与 k-mer 方法对比。

研究结果

1. 拟南芥基因组大小估算

对拟南芥 Col-0 和 Nd-1 品系分析显示，基于 BUSCO 单拷贝基因的 MGSE 估算值（约 135-156 Mbp）接近已报道的高质量组装大小（如 Col-0 的 148 Mbp），且变异度低于 k-mer 方法（如 GenomeScope2 预测范围更广，gce 值偏小）。长读长数据（14 个 GABI-Kat 品系）分析表明，MGSE 可有效处理长读长，尽管因插入缺失（InDels）存在轻微偏差，但仍在合理范围内。对 1028 份拟南芥品系的大规模分析显示，MGSE 预测值集中在 120-160 Mbp，显著减少 k-mer 方法常见的极端值（如 < 50 Mbp 的假象）。

2. 甜菜基因组大小估算

甜菜基因组复杂且富含重复序列，现有组装大小为 567-596 Mbp，但真实大小因未组装重复序列而更大（预测 600-758 Mbp）。MGSE 基于 BUSCO 的估算值（约 671-712 Mbp）优于 k-mer 方法（GenomeScope2 和 gce 低估至 < 600 Mbp），且稳定性更高，非 BUSCO 区域（如全基因）估算因重复序列干扰表现较差，凸显 BUSCO 区域的重要性。

3. 水稻及多物种适用性验证

水稻（Nipponbare 品系）的 MGSE 估算值（382-417 Mbp）与最新完整组装（385.7 Mbp）高度吻合，长读长数据（ONT、PacBio）的估算精度优于短读长。在更广的物种范围内，MGSE 在短柄草（Brachypodium distachyon）、番茄（Solanum lycopersicum）、葡萄（Vitis vinifera）等植物，以及大肠杆菌（Escherichia coli）、酵母（Saccharomyces cerevisiae）、秀丽隐杆线虫（Caenorhabditis elegans）等非植物物种中均表现可靠，尤其在多倍体（如草莓、棉花）中，通过 “--ignore” 参数关闭高覆盖 contigs 过滤可提升准确性。

4. 参数优化与性能分析

覆盖度阈值分析表明，MGSE 对长读长和短读长的最低覆盖要求分别为～3× 和～5×，显著低于 k-mer 方法的～17×。运行时间上，尽管 MGSE 总耗时高于 GenomeScope2，但利用预先生成的 BAM 文件可跳过读映射步骤，大幅提升效率，且在处理大数据集时两者耗时趋近。

结论与讨论

MGSE 通过读映射至高连续性组装，结合 BUSCO 单拷贝基因区域的覆盖度分析，为基因组大小估算提供了一种不依赖 k-mer、适用于长短读长的正交方法。其优势包括：

低覆盖要求：仅需 5 倍覆盖即可实现可靠估算，适用于资源有限的测序项目。
长读长兼容性：突破 k-mer 方法对长读长的限制，契合第三代测序技术趋势。
抗污染能力：通过过滤未映射读段，可排除细菌、真菌等污染干扰，无需预先识别污染物。
多物种通用性：在植物、动物、微生物中均表现良好，尤其为多倍体和高重复基因组的研究提供新工具。

尽管 MGSE 依赖参考基因组组装，但其所需的高连续性组装正成为基因组测序的标准产出，且读映射步骤常作为组装质量控制的一部分，因此实际应用中输入数据易得。未来随着长读长测序技术的普及，MGSE 有望成为基因组大小估算的核心方法之一，为理解物种基因组结构、进化及功能提供关键基础数据。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号