编辑推荐:
为解决现有玫瑰基因组质量参差不齐,难以深入探究金樱子(Rosa laevigata)优良性状遗传基础的问题,研究人员开展金樱子高质量染色体级基因组组装研究。成功组装 494.2Mb 基因组,锚定 99.8% 序列,预测 37,117 个基因,为玫瑰育种和种质改良提供关键信息。
在植物王国中,玫瑰以其娇艳的花朵和迷人的芬芳备受喜爱。而金樱子(
Rosa laevigata)作为玫瑰家族的一员,不仅是优秀的玫瑰种质资源,拥有抗蚜虫、抗黑斑病和白粉病的特性,还是我国传统的药食两用植物,在改善肾功能、抑制动脉硬化、抗炎等方面功效显著。然而,尽管玫瑰家族物种繁多,目前已有部分玫瑰基因组序列公布,但大多质量欠佳,处于草图阶段,这严重阻碍了对玫瑰优良性状遗传基础的深入研究。为了突破这一困境,探索金樱子背后的遗传奥秘,云南师范大学生命科学学院以及云南省农业科学院花卉研究所的研究人员踏上了这场科研之旅。他们的研究成果发表在《Scientific Data》上,为玫瑰家族的研究和应用开辟了新的道路。
研究人员为了构建高质量的金樱子基因组,采用了多种前沿技术。在样本采集上,选取了重庆市长寿区扦插繁殖的金樱子新鲜幼叶,同时采集其嫩根、茎、叶和果实用于 RNA 提取。在测序技术方面,综合运用了 Illumina 短读长测序、PacBio 单分子实时测序(SMRT)以及 Hi-C 技术。Illumina 测序获得 53Gb 过滤后短读长数据,PacBio 测序产生 36Gb 过滤数据,Hi-C 测序得到 99Gb 过滤数据,RNA 测序获得 25Gb 清洁数据。通过这些数据,利用多种软件进行基因组组装、重复序列注释、基因预测与注释等分析。
基因组调查与组装
此前研究表明金樱子是二倍体植物,经流式细胞术分析其核 DNA 含量,估算基因组大小约为 498.78Mb。研究人员利用 Illumina 短读长数据,通过 lellyfish v2.3.0 和 GenomeScope 软件进行 k-mer 分析,进一步验证其基因组大小约为 510.2Mb,杂合度为 0.6%,重复序列含量为 53.9%。之后,使用 hifiasm v0.16.1 软件进行初步组装,再经 purge_dups v1.2.5 去除冗余序列,得到由 56 个重叠群(contig)组成的初步组装结果。利用 Juicer v1.6 和 3D - DNA v201008 等软件,借助 Hi-C 数据将初步组装的 contig 锚定到 7 条假染色体上,最终获得了大小为 494.2Mb、scaffold N50 为 68.6Mb 的高质量染色体级基因组组装,其中两条假染色体无间隙。
重复序列注释
研究人员运用多种工具对金樱子基因组中的重复序列进行注释。通过 TRF v4.09 识别串联重复序列,采用从头预测和同源比对相结合的方法鉴定转座子元件(TE)。其中,利用 MITE - Hunter 和 LTR_retriever 等软件分别鉴定微型反向重复转座子元件(MITEs)和长末端重复(LTR)元件。经注释发现,金樱子基因组中重复序列占比达 57.8%,总量为 285.6Mb。LTRs 是最丰富的重复元件,占基因组的 42.14%,其中 Copia 和 Gypsy 是主要类型,分别占 16.9% 和 24.7% 。
基因预测与注释
基因预测与注释采用了转录证据、同源比对和从头预测相结合的方法。转录证据方面,对不同组织的 RNA 测序数据经 fastp 修剪后,用 HISAT2 v2.2.1 比对到组装基因组,再由 Stringtie v2.2.1 组装转录本,经 TransDecoder 预测蛋白编码序列并筛选。同源比对则将拟南芥(Arabidopsis thaliana)等 11 种植物的蛋白序列通过 GeMoMa v1.9 映射到金樱子基因组。从头预测使用 Augustus v3.3.3、GeneMark - ESSuite v4.57 和 SNAP v2006 - 07 - 28 软件,以高质量转录本训练后进行预测。最后,通过 EVdenceModeler(EVM) v1.1.1 整合不同方法预测的基因结构,并经 PASA v2.4.1 校正。最终共预测到 37,117 个蛋白编码基因,平均基因长度为 3,047.31bp,其中 34,074 个基因进行了功能注释。此外,还预测到 151 个 miRNA、1,115 个 tRNA、1,289 个 rRNA 和 627 个 snRNA 等非编码 RNA。
技术验证
为确保基因组组装的准确性和完整性,研究人员进行了多项技术验证。利用 BWA v0.7.17 和 Minimap2 v2.24 将 Illumina 短读长和 PacBio 长读长重新比对到最终组装基因组,短读长和长读长的比对率分别达到 99.8% 和 99.9%。使用 Benchmarking Universal Single - Copy Orthologs(BUSCO,v5.4.7)软件,基于 embryophyte_odb10 数据库评估基因组完整性,结果显示最终基因组序列包含 99.0% 的完整 BUSCOs(其中单拷贝 BUSCOs 占 95.4%,重复 BUSCOs 占 3.6%) 。LTR Assembly Index(LAI)评估基因组组装质量,金樱子基因组的 LAI 值为 25.21,表明其达到参考基因组水平。Merqury v1.3 评估基因组组装的一致性质量值(QV),HiFi 和 Illumina k - mers 估计的 QV 值分别为 64.8 和 55.3 。
此次研究成功组装了高质量染色体级别的金樱子基因组,为玫瑰家族的比较基因组分析提供了宝贵资源。在育种方面,有助于挖掘现代玫瑰抗病虫害的关键基因,加速基因组指导下的金樱子和现代玫瑰育种进程,培育出更优质、抗逆性更强的玫瑰品种。在药用价值研究上,为探究金樱子中重要化合物(如三萜类化合物)的生物合成机制奠定了基础,有望推动传统中药现代化研究。同时,研究成果也为其他植物基因组研究提供了参考范例,促进植物学、遗传学和医学等多领域的交叉发展,具有重要的科学意义和应用价值。