编辑推荐:
为解决麦瓶草(Gypsophila vaccaria)药用成分生物合成机制及基因挖掘难题,研究人员利用 PacBio、Illumina 测序及 Hi-C 技术,完成其 1.09 Gb 染色体级基因组组装,锚定 99.93% 序列至 15 条假染色体,注释 21,795 个基因。该成果为功能基因组学及分子育种奠定基础。
麦瓶草(Gypsophila vaccaria Sm.),又名 “王不留行”,是石竹科一年生草本植物,其干燥成熟种子在中医临床中应用广泛,常用于治疗闭经、尿路感染及止血等病症。其种子中富含三萜皂苷、环肽、黄酮和粗多糖等生物活性成分,其中 vaccarin 被《中国药典》(2010 版)列为质量控制的主要指标成分。然而,长期以来,麦瓶草高质量基因组数据的缺失,严重阻碍了其药用成分生物合成路径解析、关键基因挖掘以及分子育种研究的开展。深入解析麦瓶草基因组,不仅能揭示其药效物质形成的遗传基础,还可为中药材品种改良和品质提升提供关键靶点,因此开展相关研究具有重要的科学意义和应用价值。
为填补这一研究空白,河西学院生命科学与工程学院、复旦大学、中国中医科学院等国内研究机构的科研团队合作,开展了麦瓶草染色体水平基因组组装与功能注释研究。研究成果发表在《Scientific Data》,为麦瓶草的深入研究提供了关键数据支撑。
研究团队采用多技术整合的策略开展工作。首先,采集河西走廊药用植物园栽培的健康植株新鲜叶片,提取基因组 DNA 后,利用 PacBio Revio 平台进行 HiFi 测序,获得 26.79 Gb 数据;同时通过 Illumina HiSeq 2500 和 NovaSeq 6000 平台完成全基因组测序(21.77 Gb)、转录组测序(14.07 Gb)及 Hi-C 测序(120.6 Gb)。结合流式细胞术和 k-mer 分析估算基因组大小约为 1.09 Gb,杂合度较低。
基因组组装与质量评估
通过 Hifiasm 软件组装 PacBio HiFi 数据,经 Purge_Dups 去除冗余后,利用 Hi-C 数据将序列锚定至 15 条假染色体,最终获得 1.09 Gb 的染色体级基因组,contig N50 为 9.73 Mb,scaffold N50 达 73.3 Mb。BUSCO 分析显示,基因组和蛋白质水平的完整性分别为 95.9% 和 94.9%,Illumina 与 HiFi reads 的映射率均超过 99%,表明组装结果具有高度准确性和完整性。
基因组特征与重复元件分析
基因组中重复元件占比高达 80.43%,其中反转录转座子(54.5%)和 DNA 转座子(6.0%)为主要成分。Gypsy 和 Copia 元件分别占 21.89% 和 27.37%,显示出 LTR 反转录转座子的活跃扩增历史,这可能与基因组大小进化密切相关。
基因预测与功能注释
通过同源预测、从头预测和 RNA-Seq 辅助注释相结合的方法,共鉴定出 21,795 个蛋白质编码基因。功能注释显示,97.66% 的基因在 NR 数据库中存在同源序列,87.8% 被注释到 EggNOG 和 COG/KOG 数据库,30.02% 参与 KEGG 代谢通路,为解析药用成分合成通路提供了基因资源。此外,预测到 15,477 个 rRNA、1,287 个 tRNA 及 5,724 个非编码 RNA 基因,完善了基因组的功能元件图谱。
数据存储与技术验证
原始测序数据已存入 NCBI SRA 数据库( accession number SRP53655650 ),基因组组装和注释文件分别提交至 GenBank(JBHZIJ000000000)和 Figshare 数据库。技术验证显示,HiFi 测序平均读长 15.27 Kb,Illumina 和 Hi-C 数据过滤后保留率分别达 95.9% 和 97.34%,转录组数据映射率超 95%,确保了数据的可靠性。
该研究首次构建了麦瓶草染色体级高质量基因组,系统解析了其基因组结构和功能特征,为阐明三萜皂苷等药用成分的生物合成机制、挖掘关键功能基因提供了不可或缺的遗传信息。研究成果不仅填补了麦瓶草基因组学研究的空白,还为石竹科植物的进化研究提供了新视角,更有望通过分子育种技术推动 “王不留行” 等中药材的品质改良,助力传统中药的现代化与国际化发展。未来,基于该基因组数据的功能验证和代谢通路解析,将进一步揭示中药药效物质的形成规律,为中药创新研发奠定坚实基础。