大叶千斤拔染色体级别基因组图谱的破译及其在药用植物资源开发中的意义

《Scientific Data》:Chromosome-scale genome assembly of Flemingia macrophylla

【字体: 时间:2025年12月17日 来源:Scientific Data 6.9

编辑推荐:

  本研究通过整合PacBio HiFi长读长测序和Hi-C染色体构象捕获技术,完成了药用植物大叶千斤拔(Flemingia macrophylla)染色体级别基因组组装。该基因组大小为1.13 Gb,锚定到11条伪染色体,scaffold N50达105.36 Mb,注释到28,548个蛋白编码基因。相比已发表的Nanopore组装版本,本研究在连续性、基因完整性和功能注释方面均有显著提升,为解析其药用成分生物合成和遗传改良提供了高质量基因组资源。

  
在热带和亚热带地区的山坡草地、灌木丛中,生长着一种具有重要药用价值的豆科植物——大叶千斤拔(Flemingia macrophylla)。这种常绿灌木不仅具有抗炎、抗菌等药理活性,其富含的黄酮类化合物更被证实具有抗氧化、抗肿瘤和神经保护潜力。然而,尽管该植物在传统医学中应用历史悠久,其基因组信息却长期缺失,这严重制约了对其药用成分生物合成机制和遗传改良的深入研究。
为解决这一瓶颈问题,由魏坤华和陈凌云领衔的研究团队在《Scientific Data》上发表了染色体级别的大叶千斤拔基因组图谱。研究人员创新性地采用PacBio高保真(HiFi)长读长测序技术,结合高通量染色体构象捕获(Hi-C) scaffolding策略,成功构建了高质量参考基因组。该研究不仅填补了豆科植物基因组资源的缺口,更为解析大叶千斤拔的药用价值形成机制提供了关键分子基础。
关键技术方法包括:采集广西药用植物园的植株样本,利用PacBio Sequel II平台进行HiFi测序,采用hifiasm进行基因组组装,结合Hi-C数据进行染色体挂载,使用多种方法进行基因预测和功能注释。
基因组组装与质量评估
通过k-mer分析估计基因组大小为1.07 Gb,实际组装大小为1.13 Gb。使用hifiasm组装后获得contig N50为68.75 Mb,经过Hi-C scaffolding后scaffold N50提升至105.36 Mb,93.29%的序列成功锚定到11条伪染色体上。BUSCO评估显示组装完整度达96.9%,LTR组装指数(LAI)为14.31,表明基因组具有高度的连续性和完整性。
重复序列分析
基因组中重复序列占比59.58%,其中长末端重复反转录转座子(LTR)占39.25%,是主要的重复类型。研究人员采用RepeatModeler和RepeatMasker进行重复序列注释,为后续基因预测提供了高质量的屏蔽序列。
基因结构预测与功能注释
通过整合转录组、同源比对和de novo预测三种方法,共预测到28,548个蛋白编码基因,平均基因长度4,820.50 bp。BUSCO评估显示基因集完整度达97.8%。功能注释结果表明,97.86%的基因在至少一个数据库中获得注释,其中eggNOG注释比例最高(94.94%),其次为InterPro(90.73%)和GO(75.75%)。
非编码RNA注释
研究人员还系统注释了非编码RNA,包括1,116个rRNA、2,265个snRNA、124个miRNA、583个tRNA和8个sRNA基因,为研究基因表达调控机制提供了基础数据。
与已有基因组的比较
本研究组装的基因组在连续性指标上优于之前发表的Nanopore版本,contig N50从59.43 Mb提升至68.75 Mb,scaffold N50从100.63 Mb提升至105.36 Mb。在基因注释方面,本研究的功能注释覆盖率(97.86%)也显著高于之前的95.01%。
该研究成功构建了大叶千斤拔的高质量染色体级别基因组,不仅为豆科植物基因组进化研究提供了重要资源,更为解析其药用活性成分的生物合成途径奠定了坚实基础。基因组数据的公开将极大地促进该药用植物的分子育种和可持续开发利用,对传统中药现代化研究具有重要意义。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号