编辑推荐:
黄栌在景观美化、防沙治沙和油料生产中应用广泛,但高质量基因组缺失制约育种与进化研究。本研究利用 PacBio HiFi 和 Hi-C 数据,首次构建 PBN-43(单瓣)和 PBN-126(重瓣)的单倍型分辨 T2T 基因组,揭示重复元件分布、NLR 基因特征等,为黄栌研究提供关键资源。
黄栌(Xanthoceras sorbifolium),作为我国北方重要的多用途经济树种,在园林绿化、沙漠化治理及食用油与生物柴油生产中占据重要地位。其春季花朵具有显著的花瓣颜色变化和多样形态,兼具观赏价值;同时,对干旱、寒冷和盐碱土壤具有极强耐受性,是西北干旱半干旱地区生态修复的 “先锋树种”。然而,长期以来,黄栌的遗传研究面临关键瓶颈 —— 已发表的基因组存在端粒与着丝粒组装不完整、 gaps 未闭合、注释质量有限等问题,导致其观赏性状(如重瓣花形成机制)、抗病抗逆基因挖掘(如核苷酸结合亮氨酸丰富重复序列基因,NLR)及系统进化关系的解析进展缓慢。例如,重瓣花变种因 AGAMOUS 基因(XsAG1)内含子区转座子插入而不育,但该基因的完整结构及重瓣品种的基因组特征一直未被完整解析。此外,NLR 基因作为植物病原体检测和免疫信号传导的核心元件,其在黄栌中的分布与进化模式亟需高质量基因组的支撑。
为突破上述困境,安徽农业大学生命科学学院与北京大学现代农业研究院等机构的研究团队合作,针对黄栌单瓣品种 PBN-43(河北张家口)和重瓣品种 PBN-126(内蒙古赤峰)开展了深入研究。相关成果发表于《Scientific Data》,为黄栌的遗传改良和进化生物学研究奠定了坚实基础。
研究团队采用多组学技术手段构建高质量基因组:利用 PacBio HiFi 测序(平均深度~205×)获得长读长数据以解析复杂重复区域,结合 Hi-C 技术(平均深度~217×)实现染色体水平的组装,同时辅以 Illumina NGS 测序(平均深度~60×)和 RNA-seq 数据进行基因组注释。通过 Hifiasm、Purge_haplotigs、Verkko 等工具整合数据,最终获得 4 个单倍型基因组(464.34–468.93 Mb),均达到端粒到端粒(T2T)无间隙水平,包含所有着丝粒和端粒结构。
基因组特征与重复元件分析
基因组注释显示,黄栌基因组中重复元件占比高达 67.99%(平均 317.09 Mb),主要为长末端重复反转录转座子(LTR-RT)。其中,PBN-43 中 Gypsy 超家族略多于 Copia,而 PBN-126 则呈现相反趋势。进一步分析发现,黄栌在约 0.45–0.48 百万年前经历了一次 LTR-RT 爆发事件,显著晚于无患子科多数物种(如荔枝、龙眼等)的转座子活跃期,这可能与黄栌近期的环境适应演化相关。
基因注释与功能解析
研究共预测到 35,039–35,174 个蛋白编码基因,较首个黄栌基因组(ZS4)增加约 50.16%,且 93.90% 的基因获得功能注释。值得注意的是,重瓣品种 PBN-126 的 AG 基因中检测到 342 bp 的 LINE-RH 转座子插入(而非此前认为的 LINE1),这一发现修正了重瓣花形成的分子机制,为花器官发育的遗传调控研究提供了新视角。
NLR 基因的分布与进化模式
通过全基因组鉴定,黄栌单倍型中 NLR 基因数量为 211–260 个,其分布呈现显著的染色体簇集现象,尤其在 Chr04 和 Chr09 短臂形成 “热点区域”。串联重复和近端重复是 NLR 基因扩张的主要模式,这种结构特征为黄栌的抗病性提供了功能冗余。与无患子科其他物种相比,黄栌 NLR 基因数量处于中等水平(如龙眼 589 个,七叶树 90 个),反映出物种特异性的免疫基因进化策略。
基因组比较与遗传变异分析
比较 PBN-43 与 PBN-126 基因组发现,两者共线性区域达 343.90–399.72 Mb,遗传变异主要集中于 Chr02、Chr06 和 Chr07 的大片段结构变异(SVs),且重瓣品种的单核苷酸多态性(SNP)密度略低于单瓣品种。单倍型间分析显示,PBN-43 和 PBN-126 分别存在 27,388 和 27,888 个等位基因,其中重瓣品种的有害变异频率更低,暗示其基因组稳定性可能与不育性状相关。
该研究首次提供了黄栌单倍型分辨的 T2T 基因组,解决了长期以来的基因组组装不完整问题,为解析其观赏性状(如重瓣花)、抗病抗逆机制及系统进化关系提供了精准蓝图。高质量基因组数据将加速黄栌分子标记开发、抗逆品种选育及转座子驱动的基因组进化研究,同时为无患子科植物的比较基因组学提供关键参考。研究中揭示的 NLR 基因分布特征和 LTR-RT 爆发事件,为理解植物适应性进化和免疫机制提供了新维度,具有重要的理论和应用价值。