加州法兰绒木(Fremontodendron californicum)首个染色体级别基因组组装揭示锦葵科植物进化与保护新资源

《Journal of Heredity》:“A genome assembly of the California Flannelbush, Fremontodendron californicum”

【字体: 时间:2025年12月16日 来源:Journal of Heredity 2.5

编辑推荐:

  本研究针对加州特有保护性植物法兰绒木属缺乏高质量基因组资源的现状,利用PacBio HiFi长读长测序和Omni-C染色质构象捕获技术,首次完成了加州法兰绒木(Fremontodendron californicum)的核基因组和叶绿体基因组的从头组装。该组装产生了两个单倍型,大小约为1.2 Gb,支架N50达26 Mb,BUSCO完整性高达99.4%,为研究该属物种界定、遗传多样性和锦葵科(Malvaceae)的复杂进化历史提供了关键工具,对加州生物多样性保护(CCGP项目)具有重要意义。

  
在美国加利福尼亚州广袤的植物王国中,生长着一种叶片摸起来像法兰绒布料的奇特灌木——加州法兰绒木(Fremontodendron californicum)。它那金黄色的花朵和布满星状绒毛的叶片,使其成为加州植物区系中一道独特的风景。然而,这个看似普通的属背后,却隐藏着复杂的分类学难题和迫切的保护需求。法兰绒木属目前被承认有三个物种:分布广泛且形态多变的加州法兰绒木,以及两个分布范围极其狭窄、濒临灭绝的物种——匍匐法兰绒木(F. decumbens)和墨西哥法兰绒木(F. mexicanum)。尽管加州法兰绒木遍布加州,但其种群内部和种群间的形态差异巨大,历史上曾有多达九个分类单元被描述。这种巨大的变异性使得准确区分物种、界定濒危物种的分布范围变得异常困难。更令人担忧的是,对于这些具有重要保护价值的植物,我们长期以来缺乏强大的基因组学工具来深入研究它们的遗传背景、进化关系以及应对环境变化的潜力。此前,关于该属的遗传学研究仅局限于扩增片段长度多态性(AFLP)标记,染色体数目也仅基于早期的显微镜观察(报告为n=20),其准确性存疑。这种基因组资源的匮乏,严重制约了我们对这一加州特有重要类群的认知和保护行动。
为了填补这一空白,并为加州生物多样性保护提供科学依据,由William T. McMahan、Merly Escalona、Daniel Potter等研究人员组成的团队,作为加州保护基因组学计划(California Conservation Genomics Project, CCGP)的一部分,在《Journal of Heredity》上发表了首个加州法兰绒木的染色体级别基因组组装。这项研究旨在构建一个高质量的参考基因组,为后续研究物种演化、遗传多样性以及指导保护实践奠定坚实的基础。
研究人员为完成这项研究,主要采用了以下几项关键技术:首先,从加州纳帕县采集的野生加州法兰绒木个体(凭证标本DAV 238751)的幼嫩叶片中,通过改良的CTAB法提取高质量高分子量(HMW)基因组DNA。其次,利用PacBio Sequel II平台进行高保真(HiFi)长读长测序,获得覆盖度约57X的数据。同时,利用Dovetail? Omni-C?技术构建染色质构象捕获文库,并通过Illumina NovaSeq平台进行测序,用于基因组支架构建。接着,使用HiFiasm软件(Hi-C模式)结合HiFi reads和Omni-C数据进行初步的、分相的二倍体组装,生成两个单倍型。然后,利用SALSA软件进行支架构建,并基于Omni-C接触图谱进行手动校正和优化。最后,使用BUSCO、Merqury、QUAST等工具对组装质量进行全面评估,并使用RepeatModeler和RepeatMasker进行重复序列分析。此外,还利用Oatk流程从HiFi reads中独立组装了叶绿体基因组。

测序数据

PacBio HiFi测序产生了约245万条读长,平均读长13,063 bp,N50为13,916 bp,为基因组组装提供了高质量的长读长数据。Omni-C测序则产生了约1.47亿对读长,用于后续的支架构建。基于HiFi数据的k-mer分析(k=21)通过GenomeScope估算出基因组大小约为883.75 Mb,杂合度约为1.01%,其k-mer频谱呈现典型的二倍体双峰分布。

核基因组组装

最终的基因组组装(命名为ddFreCali1)包含两个分相的单倍型(单倍型1和单倍型2),两者在大小和连续性上高度相似。单倍型1组装体大小为1.23 Gb,包含389个支架,支架N50为26.3 Mb。单倍型2组装体大小为1.22 Gb,包含202个支架,支架N50为26.8 Mb。两个单倍型的BUSCO(Benchmarking Universal Single-Copy Orthologs)完整性评估均达到99.4%(使用胚胎植物基因集),表明组装具有极高的基因区域完整性。碱基质量值(QV)均高于66,k-mer完整性约为84%。通过手动校正,基于Omni-C接触图谱的信号,对组装体进行了多次连接和断点修正,最终获得了高度连续的染色体级别支架。

重复序列分析

对两个单倍型的重复序列分析显示,其基因组中重复序列含量很高,约72%的序列被RepeatMasker识别为重复元件。其中,反转录转座子(Retroelements)占比最高(约32%),尤其是Gypsy/DIRS-1类的长末端重复序列(LTR)占主导(约26%)。DNA转座子(DNA transposons)约占2%。值得注意的是,有相当大比例(约34-36%)的重复元件目前无法被准确分类,提示法兰绒木基因组具有复杂的进化历史。

叶绿体基因组组装

研究人员还成功组装了完整的叶绿体基因组,大小为160,827 bp,具有典型的四部分结构:大单拷贝区(LSC,89,841 bp)、小单拷贝区(SSC,20,317 bp)和两个反向重复区(IR,各25,333 bp)。该叶绿体基因组共注释到290个基因(不包括IR区的重复)。
本研究成功构建了加州法兰绒木首个高质量、染色体级别的参考基因组。该组装的高度连续性和完整性使其成为研究法兰绒木属乃至锦葵科(Malvaceae s.l.)的宝贵资源。一个有趣的发现是,基于Omni-C接触图谱推断的染色体数目(n=46)与早期基于显微镜研究报道的n=20存在显著差异。考虑到k-mer分析支持其为二倍体基因组,而非多倍体,这暗示早期研究可能低估了染色体数目,或者加州法兰绒木种群内部确实存在染色体数目的变异,这为后续研究提出了新的问题。
与锦葵科内其他已测序物种(如可可树Theobroma cacao、木棉Bombax等)相比,加州法兰绒木的基因组在大小和重复序列含量上展现出其独特性。其高比例的重复序列,尤其是大量未分类的重复元件,以及BUSCO评估中观察到的基因重复现象,可能与锦葵科演化历史上发生的全基因组倍增事件(WGM)有关。研究表明,法兰绒木所属的Malvatheca支系(包含木棉亚科Bombacoideae和锦葵亚科Malvoideae)的共同祖先可能经历了一次复杂的多倍化事件。此外,染色体结构变异(如易位、融合)也在塑造Malvatheca支系基因组结构中发挥了重要作用。这些因素可能共同解释了为何加州法兰绒木作为一个二倍体物种,却拥有相对较高的染色体数目和复杂的重复序列组成。
综上所述,这项研究不仅为理解加州法兰绒木的物种界限、种群遗传结构和适应性进化提供了关键数据,也为深入探讨锦葵科植物的宏观进化机制(如多倍化、染色体演化)提供了新的视角和工具。作为CCGP项目的重要成果之一,该基因组资源将直接应用于加州的生物多样性保护实践,通过后续的群体重测序,精确绘制遗传多样性图谱,识别关键保护单元,并为应对气候变化等挑战制定科学的保护策略。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号