《Scientific Data》:Chromosome-level genome assembly and annotation of the endangered plant Primula kwangtungensis (Primulaceae)
编辑推荐:
本刊推荐:为解析南岭地区濒危植物广东报春(Primula kwangtungensis)的遗传背景及其二型花柱(distyly)演化机制,研究团队通过BGI-DIPSEQ、Nanopore和Hi-C技术完成了1.29 Gb染色体水平基因组组装。该基因组contig N50达5.87 Mb,scaffold N50为144.82 Mb,注释获得31,717个蛋白编码基因,重复序列占比63.25%。该研究为探讨报春花属植物比较基因组学及濒危物种保护策略提供了关键遗传资源。
在南岭山脉独特的喀斯特地貌和丹霞地貌中,生长着一种极具科学研究价值的珍稀植物——广东报春(Primula kwangtungensis)。这种多年生草本植物自1937年被首次描述后,曾有超过70年未在野外被确认采集,直到2013年才在南岭中部被重新发现。更令人担忧的是,现存野生种群中超过半数成熟个体数不足50株,根据国际自然保护联盟(IUCN)标准,该物种被列为"极危"(Critically Endangered)等级。广东报春最引人注目的生物学特征是其花柱二型性(distyly),即种群中存在长花柱(pin)和短花柱(thrum)两种花型,这种独特的繁殖策略使其成为研究植物适应性进化的理想模型。
尽管已有研究涉及广东报春的系统发育关系、花粉形态和叶绿体基因组特征,但其完整的基因组信息和遗传特征始终是未解之谜。为了解决这一关键问题,由华南植物园徐远研究员、王瑞江研究员和华南农业大学郝刚教授领衔的研究团队在《Scientific Data》上发表了广东报春染色体水平基因组组装与注释成果,为揭示南岭地区物种多样性机制和报春花属比较基因组学研究提供了重要基础数据。
研究团队采用多技术融合策略:通过流式细胞术和k-mer分析估算基因组大小(约1.25-1.51 Gb)并确认其为二倍体(2n=2X=18);利用Nanopore长读长测序结合BGI-DIPSEQ短读长数据进行三代测序数据纠错,再通过Hi-C技术将88.68%的contig锚定到9条染色体上。样本来源于湖南宜章县南岭中部采集的健康植株,包括长花柱型个体的幼嫩叶片用于DNA提取,以及花、果实、根等多组织用于RNA测序。
基因组组装结果展示出高质量指标:最终组装大小为1.29 Gb,contig N50为5.87 Mb,scaffold N50达到144.82 Mb。BUSCO评估显示基因组完整性达95.8%,LAI指数为12.62,一致性QV值为32.15,证实组装质量优异。
重复序列分析显示,转座元件(TEs)占基因组的63.25%,其中长末端重复反转录转座子(LTR)占比最高(43.35%)。基因结构预测通过转录组、同源比对和de novo三种方法整合,共鉴定31,717个蛋白编码基因,97.46%获得功能注释。与缨草目其他物种比较显示,广东报春平均基因长度3.93 kb,平均CDS长度1.10 kb,每个基因含4.69个外显子,这些特征与近缘种相似。
KOG功能分类显示基因广泛参与代谢、信号传导等生物学过程。微卫星(SSR)分析共识别479,733个SSR位点,其中单核苷酸重复占比最高(55.14%),染色体分布分析显示4号染色体SSR数量最多(61,942个)。
基因组注释评估通过BUSCO进行,蛋白序列完整性达96.4%,其中单拷贝基因占比93.2%。比较基因组学分析表明,广东报春在基因组大小、scaffold N50和contig N50等指标上均优于已报道的报春花科物种。
该研究首次提供了广东报春染色体水平的高质量参考基因组,不仅为理解二型花柱的遗传机制和报春花属演化历史提供了关键数据,更重要的是为这一极危物种的保护遗传学研究奠定了坚实基础。基因组数据将有助于解析南岭特有物种的适应性进化机制,为制定科学有效的保护策略提供理论依据,对全球生物多样性保护具有重要示范意义。