《Scientific Data》:Chromosomal-level genome assembly of two dominant desert shrub species in Haloxylon (Amaranthaceae)
编辑推荐:
本研究针对重要荒漠植物梭梭(Haloxylon ammodendron)和白梭梭(H. persicum)缺乏高质量参考基因组的瓶颈问题,采用PacBio HiFi长读长测序和Hi-C技术首次完成了两种物种染色体级别基因组组装。结果显示梭梭基因组大小为2.32 Gb(contig N50=5.11 Mb),白梭梭为1.32 Gb(contig N50=9.55 Mb),分别注释到69,844和66,859个蛋白编码基因。该基因组为解析沙漠植物抗旱耐盐机制提供了重要资源,对荒漠生态恢复和植物抗逆育种研究具有重要意义。
在广袤的荒漠地带,两种被称为"沙漠卫士"的植物——梭梭(Haloxylon ammodendron)和白梭梭(Haloxylon persicum)顽强生长,它们不仅能够有效固沙、调节微气候,还因其木材高热值、低烟量的特性被称为"沙煤",更是名贵中药材肉苁蓉的寄主。然而,随着气候变化和人类活动加剧,这些宝贵植物资源正面临严重威胁。
长期以来,科学家们试图揭示梭梭属植物惊人抗逆性的遗传基础,但完整的参考基因组缺失严重制约了相关研究。转录组分析表明,在干旱条件下,梭梭中MYB和AP2/ERF等转录因子表达上调,而白梭梭中则呈现抑制状态,但这种差异的分子机制尚不明确。缺乏高质量基因组导致转录本拼接准确性不足、功能注释困难,关键基因挖掘效率低下。
为解决这一瓶颈问题,新疆大学吕光辉教授团队开展了这项开创性研究。研究人员从艾比湖湿地自然保护区采集当年生同化枝,采用PacBio HiFi长读长测序结合Hi-C技术,首次完成了两种梭梭属植物染色体级别基因组组装。研究还利用Illumina短读长测序进行基因组调查分析,通过K-mer分析估计基因组大小和杂合度,并整合转录组数据和同源比对进行基因注释。
基因组组装与质量评估
研究人员采用Hifiasm软件进行从头组装,并通过3D-DNA软件利用Hi-C数据将contig挂载到染色体上。最终获得的梭梭基因组大小为2.32 Gb,contig N50为5.11 Mb,scaffold N50达到257.59 Mb;白梭梭基因组为1.32 Gb,contig N50为9.55 Mb,scaffold N50为143.67 Mb。分别有97.84%和95.45%的序列成功锚定到9条染色体上。BUSCO评估显示完整性分别为88.40%和84.00%,短读长比对率均超过99.95%,表明组装质量较高。
重复序列分析
研究发现重复序列在梭梭和白梭梭基因组中占比分别为57.42%和52.88%,其中转座子(TE)是主要组成部分。长末端重复反转录转座子(LTR-RTs)在梭梭中占28.89%,白梭梭中为26.50%,Gypsy类占比最高。DNA转座子中Tc1/Mariner和helitron是主要类型。LTR组装指数(LAI)评估值为3.52和5.11,表明重复序列组装仍有提升空间。
基因注释与功能分析
通过MAKER流程整合从头预测、转录组和同源证据,梭梭和白梭梭分别注释到69,844和66,859个蛋白编码基因。功能注释显示87.19%的梭梭基因和94.96%的白梭梭基因在至少一个数据库中获得注释。两个物种平均每个基因含有3.94和3.95个外显子,平均CDS长度分别为988.28 bp和2140.54 bp。
数据可用性
所有原始测序数据已保存在NCBI数据库,基因组注释文件可在Figshare获取,为后续研究提供了完整的数据资源。
这项研究首次提供了梭梭属两种重要沙漠植物的染色体级别基因组,不仅为解析植物抗旱耐盐机制提供了关键数据,也为沙漠植物资源保护、生态恢复和分子育种奠定了坚实基础。基因组数据的发布将极大促进沙漠植物适应性进化、植物与环境互作等前沿领域的研究进展。随着后续功能基因组学研究的深入,这些"沙漠卫士"的生存奥秘有望被进一步揭开,为应对全球气候变化下的荒漠化防治提供新思路。