可可CCN51品种近T2T单倍型基因组解析:为高产抗病育种提供精准蓝图

《Scientific Data》:Near T2T haplotype-resolved genomes of cacao (Theobroma cacao) variety CCN51

【字体: 时间:2025年12月24日 来源:Scientific Data 6.9

编辑推荐:

  本研究针对现代杂交可可品种CCN51缺乏高质量参考基因组的现状,利用PacBio HiFi长读长和Hi-C技术,成功构建了其近T2T水平的单倍型基因组。该组装总长分别为414.0 Mb和417.7 Mb,k-mer完整度高达99.24%,并注释出22,941和22,948个蛋白编码基因。研究还首次系统揭示了CCN51中高达62.36%的转座子(TE)含量,为解析其高产、抗病等优良性状的遗传基础提供了关键资源,将有力推动可可的基因组辅助育种。

  
想象一下,你手中那块丝滑的巧克力,其源头——可可豆,正面临着严峻的生存挑战。可可树主要生长在热带地区的小农户手中,但病虫害、土壤退化等问题严重制约着产量。为了满足全球对巧克力的巨大需求,人们不得不砍伐森林开辟新的种植园,这无疑加剧了环境压力。在这一背景下,一个名为CCN51的现代杂交可可品种脱颖而出,它以其惊人的高产、广泛的抗病性和卓越的适应性,迅速成为拉丁美洲种植最广泛的品种,被誉为“高产明星”。
然而,这位“明星”也面临着争议。尽管CCN51产量高、抗病强,但其风味却常被描述为“大宗可可”,缺乏优质可可特有的花香、坚果香和果香,反而带有强烈的酸味、苦味和涩味。这种风味上的“短板”限制了其市场价值,也引发了人们对传统优质可可品种被取代的担忧。因此,如何利用CCN51的高产抗病基因,同时改良其风味,成为可可育种家面临的核心难题。解决这一难题的关键,在于深入解析CCN51的遗传密码,而这需要一份高质量的基因组图谱作为“导航图”。
遗憾的是,尽管已有多个可可参考基因组发布,但它们大多聚焦于地理隔离的地方品种或野生种质,专门针对CCN51这类现代优良杂交品种的高质量基因组却是一片空白。为了填补这一空白,并为可可的精准育种提供关键工具,由Huawei Tan、Yaxin Lou、Yuchen Yan、Lyndel W. Meinhardt、Bryan Bailey、Osman Gutierrez、Sunchung Park、Stephen P. Cohen、Dapeng Zhang和Yanbin Yin组成的研究团队,在《Scientific Data》上发表了题为“Near T2T haplotype-resolved genomes of cacao (Theobroma cacao) variety CCN51”的研究论文。该研究利用先进的测序技术,成功构建了CCN51的近端粒到端粒(T2T)水平单倍型基因组,为揭示其优良性状的遗传基础奠定了坚实基础。
为了构建这份高质量的基因组图谱,研究人员从美国农业部农业研究服务局(USDA-ARS)可持续多年生作物实验室的温室中采集了CCN51的叶片样本。他们首先利用PacBio Sequel II平台进行了HiFi长读长测序,获得了约24.1 Gb的数据,测序深度约为54.65x。随后,为了将基因组组装提升至染色体水平,他们又利用Dovetail Genomics的Omni-C技术进行了Hi-C测序,获得了约27.54 Gb的数据,测序深度约为65.89x。这些高质量的数据为后续的基因组组装和注释提供了可靠保障。
De novo assembly of cacao CCN51
研究人员首先对测序数据进行了质量评估和基因组特征预测。k-mer分析显示,CCN51的基因组大小约为418.36 Mb,杂合率为0.991%,证实其为二倍体基因组。随后,他们利用Hifiasm软件对经过质控的HiFi和Hi-C数据进行组装,并利用Juicer软件将重叠群锚定到染色体上。最终,他们成功获得了CCN51的两个单倍型基因组,总长度分别为413.96 Mb和417.69 Mb,并成功组装了线粒体和叶绿体基因组。值得注意的是,该组装在10条染色体上均成功识别出了端粒序列,达到了近T2T水平,仅剩少量复杂区域存在缺口。与已发表的其他可可基因组相比,该组装的k-mer完整度高达99.24%,碱基质量值(QV)达到67.4,BUSCO评估的完整度超过99%,均达到了目前可可基因组组装的最高水平。
Gene prediction and annotation
为了全面解析CCN51的基因功能,研究人员进行了系统的基因预测和功能注释。他们整合了转录组测序证据、同源蛋白比对和从头预测等多种方法,最终在两个单倍型中分别预测了22,941和22,948个蛋白编码基因。功能注释结果显示,超过99%的基因在至少一个数据库中得到了注释,其中在TrEMBL数据库中的注释比例高达98.89%。此外,研究人员还预测了非编码RNA,包括428个tRNA、1,852个rRNA、132个miRNA、817个snoRNA、99个snRNA以及1,068个其他ncRNA。BUSCO评估显示,蛋白编码基因的完整度高达98.8%,进一步证实了该基因组注释的完整性。
Repeat annotation and comparisons
转座子(TE)是基因组的重要组成部分,对基因调控和物种进化具有深远影响。本研究对CCN51基因组中的转座子进行了深入分析。结果显示,CCN51的转座子含量高达62.36%,高于此前报道的自然品种IMC67。更重要的是,通过结合EDTA和DeepTE等先进工具,研究人员成功对59%的转座子进行了分类,将未分类的比例降至仅约3%,显著提升了转座子注释的准确性。在已分类的转座子中,Gypsy/DIRS1超家族最为丰富,占转座子总量的43.4%。通过分析转座子的Kimura 2-Parameter(K2P)距离,研究人员发现,Copia家族在近期(约500万年内)表现出持续的活跃积累,而Gypsy家族则在大约100万年前经历了一次显著的扩张。此外,基因和转座子在染色体上的分布呈现出明显的负相关关系:基因密度在染色体末端较高,而Gypsy和Copia等LTR转座子则主要富集在着丝粒和近着丝粒区域。
本研究成功构建了可可现代优良杂交品种CCN51的高质量、近T2T水平的单倍型基因组。该基因组在连续性、完整性和准确性方面均达到了行业领先水平,为可可的遗传学和育种研究提供了前所未有的精准参考。研究不仅系统注释了超过2.2万个蛋白编码基因,还首次全面揭示了CCN51中高达62.36%的转座子含量及其动态演化历史,特别是Copia和Gypsy家族在近期和历史上的活跃扩张。这些发现为深入解析CCN51高产、抗病、花粉寿命长等优良性状的分子机制提供了关键线索。该基因组资源的发布,将极大地促进可可的基因组辅助育种,加速培育出兼具高产、抗病和优质风味的新品种,以应对全球可可产业面临的生物和非生物胁迫挑战。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号