编辑推荐:
金樱子(Rosa laevigata)具有重要药用价值,但缺乏参考基因组阻碍其开发利用。研究人员通过整合 Hifilong reads、BGI 短 reads 和 Hi-C reads,完成金樱子两个单倍型基因组组装。该成果为蔷薇属植物研究及金樱子药用开发奠定基础。
在神奇的植物世界里,蔷薇属植物宛如一颗颗璀璨的明珠,不仅有着迷人的外表,还蕴藏着巨大的药用价值。金樱子(
Rosa laevigata)便是其中一员,它是中国特有的多年生草本植物,在中国传统草药实践中占据着重要地位。金樱子的果实和根都有着丰富的用途,其果实可加工成各类食品,根更是一些著名中成药的关键成分,用于治疗妇科感染和泌尿系统疾病。
然而,长期以来,金樱子的研究却面临着重重困境。此前的研究大多集中在其叶绿体基因组,对核基因组的探索几乎一片空白。没有参考基因组,就如同在黑暗中摸索,严重阻碍了金樱子药用潜力的开发和利用,许多关于它的遗传奥秘和药用机制都无法深入探究。
为了打破这一僵局,贵州教育大学、武汉大学等研究机构的科研人员挺身而出,开展了一项极具意义的研究。他们的目标很明确,就是要揭开金樱子的基因组奥秘,为后续研究和开发提供关键基础。
经过不懈努力,研究人员成功完成了金樱子两个单倍型(Hap1 和 Hap2)的染色体水平基因组从头组装。Hap1 基因组大小约为 493 Mb,Hap2 基因组约为 479 Mb,并且都成功锚定到了 7 条假染色体上。同时,他们还预测出 Hap1 基因组有 43,480 个蛋白质编码基因,Hap2 基因组有 41,251 个蛋白质编码基因。这一成果意义非凡,它极大地丰富了蔷薇属植物的遗传资源,为深入研究蔷薇属植物的进化历史、生物活性化合物的生物合成以及金樱子潜在药用价值的探索,都奠定了坚实的基础。该研究成果发表在《Scientific Data》杂志上。
在这项研究中,研究人员运用了多种关键技术方法。首先是样本采集,他们从贵州贵阳花溪区高坡镇采集了野生金樱子植株样本。然后进行多种测序,利用 CTAB 法提取 DNA 后,通过 BGI 测序获得短 reads,用于基因组 survey 分析和错误校正;Pacbio Hifi reads 测序为基因组组装提供长读长数据;Hi-C 测序则用于染色体水平的组装;转录组测序为基因组注释提供依据。最后利用多种软件进行数据分析,如用 Hifiasm 进行基因组组装,用 RepeatMasker 进行重复序列注释等。
研究结果具体如下:
- 基因组大小估计:通过对 BGI 原始 reads 的处理和分析,利用 Jellyfish 和 GenomeScope 软件计算 23 - mer 频率,评估出金樱子基因组大小约为 415 Mb,具有较高的杂合率(1.12%)和中等的重复率(40.8%)。
- 基因组组装:基于 PacBio 长读长和 Hi - C 数据,利用 Hifiasm 软件从头组装出两个单倍型基因组。经过多次校正后,最终得到两个单倍型分别包含 7 条假染色体的组装结果,且染色体长度等各项指标良好。
- 基因组预测和注释:
- 重复注释:采用同源比对和从头预测相结合的方法,发现 Hap1 和 Hap2 基因组中重复元件分别占基因组大小的 55.61% 和 55.14%,其中 LTR - Copia 和 LTR - Gypsy 元件占比较大。
- 非编码 RNA 注释:预测出金樱子两个单倍型基因组中分别存在不同数量的 tRNA、rRNA、snRNA 和 miRNA 等非编码 RNA。
- 基因结构 annotation:综合多种预测方法,注释出 Hap1 和 Hap2 基因组中蛋白质编码基因的各项特征,如基因长度、CDS 长度、外显子和内含子数量及长度等。
- 基因功能 annotation:将蛋白质序列与多个数据库比对,对基因进行功能注释,发现大部分预测的蛋白质编码基因在至少一个数据库中得到注释。
- 技术验证:通过将 BGI 短 reads 比对到基因组评估组装完整性,利用 BUSCO 评估基因组完整性,以及 Merqury 评估质量值(QV)和 OMArk 分析蛋白质编码基因完整性等多种方法,证明了金樱子基因组组装具有较高的完整性和质量。
研究结论表明,研究人员成功获得了金樱子染色体水平的高质量基因组组装和注释信息。这一成果为蔷薇科植物的进化研究提供了重要的遗传资源,有助于深入理解生物活性化合物的生物合成途径,为金樱子的药用开发开辟了新道路。在未来,基于这些基因组数据,科研人员可以进一步探究金樱子中有效成分的合成调控机制,开发出更高效的药物,为人类健康事业做出更大贡献。同时,该研究也为其他药用植物的基因组研究提供了宝贵的参考和借鉴,推动了整个药用植物领域的发展。