编辑推荐:
为解决香薷药用与植物修复中重金属积累的矛盾,研究人员利用 PacBio Revio 长读长、Illumina 短读长和 Hi-C 测序技术,构建其单倍型分辨染色体水平基因组序列,获得两组单倍型组装,为药用成分合成与遗传保护提供资源。
香薷(Elsholtzia splendens)是东亚地区一种具有重要药用和生态价值的多年生草本植物,在传统医学中被广泛用于治疗炎症和发热等病症。现代研究发现,其含有的化合物具有抗菌、抗炎、抗抑郁、抗血栓和降脂等多种药理活性,提取的精油也被广泛应用于草药疗法。此外,香薷还展现出强大的植物修复潜力,能够超富集铜(Cu)、铅(Pb)、锌(Zn)和镉(Cd)等重金属,可有效治理工业场地和矿区等污染环境。然而,其在修复过程中积累的重金属可能通过药用途径对人体健康构成威胁,如何平衡药用价值与重金属风险成为亟待解决的问题。
为深入揭示香薷药用成分合成机制并降低重金属积累风险,韩国江原国立大学(Kangwon National University)等机构的研究人员开展了香薷基因组测序研究。相关成果发表在《Scientific Data》,为香薷的遗传改良和生物技术应用奠定了关键基础。
研究采用了 PacBio Revio 长读长测序、Illumina 短读长测序和 Hi-C 技术。实验材料为采自韩国华川的香薷种子,经培养后提取 DNA 和 RNA。通过 K-mer 分析估算其单倍体基因组大小为 322.351 Mbp,杂合率为 0.0126,显示出自然种群的杂合特性。
单倍型分辨基因组组装
利用 Hifiasm 软件对长读长序列进行单倍型组装,结合 Hi-C 数据将单倍型序列锚定到染色体上,成功获得两组单倍型染色体(n=8)。其中,单倍型 1(Hap1)和单倍型 2(Hap2)的基因组组装大小分别为 275.4 Mbp 和 265.0 Mbp, scaffold N50 分别为 33.9 Mbp 和 33.8 Mbp。Hi-C 互作图谱清晰显示 16 条染色体的同源互作信号,验证了组装的准确性。
重复序列分析
重复序列注释显示,香薷基因组中 61.3% 为重复序列,其中长末端重复(LTR)反转录转座子占 28.0%,Copia 和 Gypsy 类型的 LTR 元件分别占 9.2% 和 7.3%。同源染色体间长度差异达 12.1 Mbp,主要由重复序列的数量和分布差异导致,揭示了重复序列在染色体进化中的重要作用。
基因预测与功能注释
通过 BRAKER 管道结合 RNA-seq 数据和近缘物种蛋白序列,在 Hap1 和 Hap2 中分别预测到 24,661 和 24,532 个高置信度基因模型,其中 98% 以上的基因获得功能注释,涉及 KEGG、GO 和 Pfam 等多个数据库。同源染色体的共线性分析显示等位基因定位一致,进一步证明了单倍型组装的完整性。
基因组质量评估
采用 LAI、Merqury 和 BUSCO 等工具评估显示,基因组组装准确性超过 98.2%,Hap1 和 Hap2 的完整核心真核基因比例分别为 97.3% 和 97.4%,基因预测完整性达 97.5% 和 97.6%,表明组装和注释质量较高。
该研究首次提供了香薷的单倍型分辨染色体水平基因组序列,为解析其药用成分(如精油)的生物合成通路提供了基因组基础,有助于通过基因编辑等技术改良药用特性并降低重金属积累风险。同时,高质量的基因组数据为香薷的遗传保护和生态修复应用提供了关键资源,推动其在医药和环境领域的可持续利用。研究结果不仅深化了对香薷遗传基础的认识,也为唇形科植物的比较基因组学和进化研究提供了重要参考。