
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于映射的基因组大小估算方法研究:从植物到多物种的广泛应用
【字体: 大 中 小 】 时间:2025年05月15日 来源:BMC Genomics 3.5
编辑推荐:
【编辑推荐】现有基因组大小估算方法(如 k-mer 分析)存在依赖高覆盖测序或仅适用于短读长等局限。本研究开发 Mapping-based Genome Size Estimation(MGSE)工具,基于长短读长映射高连续性组装,通过 BUSCO 等区域计算覆盖度估算基因组大小,在多物种中表现可靠,为基因组研究提供新手段。
准确测定基因组大小是生命科学领域的基础难题。尽管显微镜可观察染色体大小,但单细胞中 DNA 分子的总长度却难以获知。早期的生化方法如复性动力学、Feulgen 光度法等依赖参考基因组,而新一代测序技术催生的 k-mer 分析方法(如 GenomeScope2、findGSE)虽无需参考基因组,却面临高测序覆盖度要求,且无法适用于第三代测序的长读长数据。此外,植物基因组中高度重复区域(如着丝粒、核仁组织区)常无法完全组装,导致仅通过组装大小推断基因组大小存在局限性,不同方法对同一物种的估算结果甚至可相差 3 倍,如拟南芥(Arabidopsis thaliana)的估算值在 70 Mbp 至 211 Mbp 之间波动,真实大小始终成谜。
为解决上述问题,德国布伦瑞克工业大学(TU Braunschweig)和波恩大学(University of Bonn)的研究人员开展了一项创新研究。他们开发了一种基于读映射的基因组大小估算方法 ——Mapping-based Genome Size Estimation(MGSE),并在《BMC Genomics》发表论文,报道了该方法在植物、细菌、真菌和动物等多物种中的广泛应用及可靠表现。
研究主要采用以下关键技术方法:
数据获取:从 NCBI 和 Sequence Read Archive 获取拟南芥、甜菜(Beta vulgaris)、水稻(Oryza sativa)等多物种的长短读长测序数据及参考基因组组装序列。
读映射:短读长使用 BWA MEM,长读长使用 minimap2 将测序读段映射至参考基因组,生成 BAM 文件。
覆盖度计算:通过 bedtools 从 BAM 文件生成覆盖度文件,利用 BUSCO(Benchmarking Universal Single Copy Orthologs,基准单拷贝直系同源基因)筛选的单拷贝基因区域计算平均覆盖度。
基因组大小估算:基于公式N=L/C(N为基因组大小,L为测序碱基总量,C为平均覆盖度),使用 MGSE 脚本预测基因组大小,并与 k-mer 方法对比。
对拟南芥 Col-0 和 Nd-1 品系分析显示,基于 BUSCO 单拷贝基因的 MGSE 估算值(约 135-156 Mbp)接近已报道的高质量组装大小(如 Col-0 的 148 Mbp),且变异度低于 k-mer 方法(如 GenomeScope2 预测范围更广,gce 值偏小)。长读长数据(14 个 GABI-Kat 品系)分析表明,MGSE 可有效处理长读长,尽管因插入缺失(InDels)存在轻微偏差,但仍在合理范围内。对 1028 份拟南芥品系的大规模分析显示,MGSE 预测值集中在 120-160 Mbp,显著减少 k-mer 方法常见的极端值(如 < 50 Mbp 的假象)。
甜菜基因组复杂且富含重复序列,现有组装大小为 567-596 Mbp,但真实大小因未组装重复序列而更大(预测 600-758 Mbp)。MGSE 基于 BUSCO 的估算值(约 671-712 Mbp)优于 k-mer 方法(GenomeScope2 和 gce 低估至 < 600 Mbp),且稳定性更高,非 BUSCO 区域(如全基因)估算因重复序列干扰表现较差,凸显 BUSCO 区域的重要性。
水稻(Nipponbare 品系)的 MGSE 估算值(382-417 Mbp)与最新完整组装(385.7 Mbp)高度吻合,长读长数据(ONT、PacBio)的估算精度优于短读长。在更广的物种范围内,MGSE 在短柄草(Brachypodium distachyon)、番茄(Solanum lycopersicum)、葡萄(Vitis vinifera)等植物,以及大肠杆菌(Escherichia coli)、酵母(Saccharomyces cerevisiae)、秀丽隐杆线虫(Caenorhabditis elegans)等非植物物种中均表现可靠,尤其在多倍体(如草莓、棉花)中,通过 “--ignore” 参数关闭高覆盖 contigs 过滤可提升准确性。
覆盖度阈值分析表明,MGSE 对长读长和短读长的最低覆盖要求分别为~3× 和~5×,显著低于 k-mer 方法的~17×。运行时间上,尽管 MGSE 总耗时高于 GenomeScope2,但利用预先生成的 BAM 文件可跳过读映射步骤,大幅提升效率,且在处理大数据集时两者耗时趋近。
MGSE 通过读映射至高连续性组装,结合 BUSCO 单拷贝基因区域的覆盖度分析,为基因组大小估算提供了一种不依赖 k-mer、适用于长短读长的正交方法。其优势包括:
低覆盖要求:仅需 5 倍覆盖即可实现可靠估算,适用于资源有限的测序项目。
长读长兼容性:突破 k-mer 方法对长读长的限制,契合第三代测序技术趋势。
抗污染能力:通过过滤未映射读段,可排除细菌、真菌等污染干扰,无需预先识别污染物。
多物种通用性:在植物、动物、微生物中均表现良好,尤其为多倍体和高重复基因组的研究提供新工具。
尽管 MGSE 依赖参考基因组组装,但其所需的高连续性组装正成为基因组测序的标准产出,且读映射步骤常作为组装质量控制的一部分,因此实际应用中输入数据易得。未来随着长读长测序技术的普及,MGSE 有望成为基因组大小估算的核心方法之一,为理解物种基因组结构、进化及功能提供关键基础数据。
生物通微信公众号
知名企业招聘