杏品种‘国志鲜’T2T参考基因组及单倍型解析组装:推动未来杏育种的重要资源

《Scientific Data》:A T2T reference genome and haplotype-resolved assembly of cultivar ‘Guozhixian’ for future apricot breeding

【字体: 时间:2025年12月18日 来源:Scientific Data 6.9

编辑推荐:

  本研究针对杏基因组组装存在大量缺口、难以支撑精准育种的问题,开展了杏杂交品种‘国志鲜’的端粒到端粒(T2T)基因组测序与单倍型解析研究。通过整合PacBio HiFi、Nanopore超长读长和Hi-C等多种测序技术,成功构建了高质量、无缺口的T2T参考基因组(GZX_Primary, 253.5 Mb)及两个单倍型基因组(GZX_HapA和GZX_HapB)。该基因组在连续性(Contig N50达31.5 Mb)、完整性(BUSCO评估达98.9%)和组装质量(QV=39.7, LAI=19.25)上均显著优于其亲本‘Sungold’和‘Chuanzhihong’的基因组。研究还完成了重复序列注释、基因预测与功能注释,并进行了染色体共线性分析。该T2T基因组为杏的遗传育种、重要性状基因挖掘及基因组进化研究提供了前所未有的精准蓝图,标志着杏基因组学研究进入了一个新阶段。相关成果发表于《Scientific Data》。

  
杏(Prunus armeniaca L.)是一种深受人们喜爱的水果作物,以其金黄色的诱人外观和多汁芳香果肉而闻名。它起源于中国黄河流域,最早的栽培证据可以追溯到夏朝(约公元前2000年)。如今,杏在地中海地区、中东、高加索、中亚和中国广泛种植,年产量约410万吨。然而,与一年生作物在驯化过程中常表现出显著的遗传变异不同,杏作为多年生果树,其漫长的幼年期和高异交率给育种带来了独特的挑战。尽管人类选择也塑造了杏的自交不亲和性、果实品质、生长性状和胁迫响应等相关性状,但杏的基因组学研究却相对滞后。
一个关键的瓶颈在于基因组组装的质量。蔷薇科植物(包括杏)的大多数基因组组装(除桃基因组V2.0和耐寒苹果花粉组织培养系测序外)都是利用具有杂合遗传背景的植物材料构建的。这导致了“嵌合”基因组数据的产生,由于这些植物的二倍体性质,只有一组亲本遗传信息被混合。一个组装良好的基因组正成为基因组研究的新工具,为深入理解这些区域带来了新的机遇。此前,杏的参考基因组,如西方品种‘Sungold’(外观诱人、果肉紧实)和中国地方品种‘川志红’(香气浓郁、风味佳、适应性强)的基因组,都存在大量未填补的缺口(分别为172个和262个),并且未能完全解析端粒和着丝粒区域,限制了其在精准育种中的应用。
为了解决中国国内杏品种面临的储运挑战,研究人员提出了一种新的育种策略,旨在整合西方品种‘Sungold’和中国地方品种‘川志红’的优良性状,从而成功培育出新品种‘国志鲜’(GZX),该品种兼具风味浓郁、外观诱人、果肉紧实和适应性强等特点。因此,解析‘国志鲜’及其亲本源基因组中的结构变异,将为未来的杏育种提供宝贵的遗传学见解。
在此背景下,由张秋萍和邱振宇共同领导的研究团队在《Scientific Data》上发表了一项重要研究成果,题为“A T2T reference genome and haplotype-resolved assembly of cultivar 'Guozhixian' for future apricot breeding”。该研究成功完成了杏杂交品种‘国志鲜’的端粒到端粒(Telomere-to-Telomere, T2T)基因组组装和单倍型解析,获得了高质量、无缺口的参考基因组,为杏的生物学研究和分子育种奠定了坚实的基础。
为了构建高质量的‘国志鲜’基因组,研究人员采用了多种先进的测序技术。他们从国家李杏种质资源圃(辽宁熊岳)采集了‘国志鲜’的幼嫩叶片,利用改良的CTAB法提取基因组DNA。测序数据包括:利用PacBio Sequel II平台产生的约34 Gb(~135x 覆盖率)的HiFi reads(N50为13.781 kb);利用Oxford Nanopore PromethION平台产生的约68.09 Gb(~272x 覆盖率)的超长读长(ONT ultra-long reads,N50为60.431 kb);利用MGI-T7平台产生的短读长(DNBseq)数据;以及Hi-C数据用于染色体挂载。亲本‘Sungold’和‘Chuanzhihong’的基因组数据从蔷薇科基因组数据库(Genome Database for Rosaceae, GDR)获取。
基因组组装过程主要分为几步。首先,使用Hifiasm (v0.19.5)软件利用HiFi reads进行初步的contig级组装。然后,利用Hi-C数据,通过BWA (v0.7.12)比对、Juicer (v1.5.6)处理和3D DNA (v180922)软件进行染色体挂载,获得染色体级别的基因组。同时,也使用NextDenovo (v2.5.0)对ONT超长读长进行组装,并用Hi-C数据挂载。比较发现基于HiFi reads的组装连续性更高,因此以其为基础构建最终T2T基因组,并利用ONT超长读长,通过JUICEBOX Assembly Tools (v2.15.07)和LR_gapcloser进行缺口填补和错误校正。研究还利用Hifiasm软件内在的分相功能,基于PacBio HiFi reads生成了两个高连续性的单倍型解析组装(GZX_HapA和GZX_HapB)。最终选择具有最强Hi-C互作信号、与ONT超长读长一致性最高、且连续性(contig N50=31.5 Mb)、完整性(BUSCO得分:98.9%)和组装质量(QV=39.7, LAI=19.25)最优的组装作为初级组装(GZX_Primary)。
基因组组装结果
研究成功获得了高质量的‘国志鲜’T2T参考基因组。GZX_Primary基因组长度为253,575,856 bp,包含8条染色体,每条染色体由一个contig代表,实现了真正的无缺口(gap-free)组装。两个单倍型基因组GZX_HapA和GZX_HapB的长度分别为238,646,170 bp和248,939,259 bp,同样各包含8个contig。与亲本基因组相比,新组装的GZX基因组在连续性和完整性上取得了显著进步。GZX_Primary、GZX_HapA和GZX_HapB的contig N50分别为31.5 Mb、29.6 Mb和30.9 Mb,远高于‘Sungold’(7.1 Mb)和‘川志红’(1.0 Mb)。更重要的是,GZX基因组成功填补了所有缺口(0个),而‘Sungold’和‘川志红’分别有172个和262个缺口。这表明GZX基因组提供了更完整、更连续的遗传图谱。
重复序列注释
研究人员结合同源比对和从头预测方法对基因组中的重复序列进行了全面注释。比较分析发现,GZX组装(Primary, HapA, HapB)中的重复元件比例 consistently高于其亲本基因组。其中,从头预测模型(de novo)识别出的重复元件占比最高,GZX_Primary中达到53.83%。串联重复查找器(Tandem Repeats Finder)在GZX组装中检测到的重复序列比例(13.54-15.95%)也显著高于‘Sungold’(4.18%)和‘川志红’(5.02%)。对转座子(Transposable Elements, TEs)的详细分析显示,长末端重复序列(Long Terminal Repeat, LTR)元件是最丰富的TEs,在GZX_Primary中占比高达45.22%。DNA转座子是第二大类,占比在4.06%(GZX_Primary)到7.44%(‘川志红’)之间。LINE和SINE元件含量较少。GZX组装中较高的TE含量可能反映了基因组复杂性、进化历史或组装质量的差异。此外,研究还利用七碱基端粒重复序列('AAACCCT')作为查询序列,成功识别了GZX基因组的全部16个端粒。利用Tandem Repeats Finder和HMMER软件,研究人员还鉴定了每条染色体上的着丝粒区域,其长度范围在2,496,729 bp 到 7,701,153 bp 之间。
基因预测和注释
通过同源比对和转录组比对算法进行基因预测。利用来自‘银香白’杏的RNA-seq数据,通过hisat2-stringtie流程组装并比对到GZX基因组上,使用featureCounts计算基因区域的读数计数,并通过TPM(Transcripts Per Million)公式计算基因表达水平。同时,使用GeMoMa进行同源蛋白比较。最后,通过PASA(Program to Assemble Spliced Alignments)整合两种方法的证据,获得最终的基因集。在GZX_Primary基因组中,共完整注释了30,543个蛋白质编码基因模型。这些基因的功能注释基于NR、Swissprot、KEGG、KOG、TrEMBL、Interpro和GO七个数据库进行。大约88%的基因在T2T基因组和两个单倍型基因组中成功获得了功能注释。约40.20%的基因(对应于T2T基因组和两个单倍型基因组中的12,847、12,277和12,219个基因)在Swissprot、KEGG、KOG、TrEMBL和Interpro这五个主要数据库中共同注释。编码序列(Coding Sequence, CDS)的平均长度为986 bp,平均外显子长度为236 bp,每个基因平均有4个外显子。使用BUSCO软件基于胚胎植物数据库对预测基因进行评估,其完整性得分达到92.5%。
染色体共线性分析
为了揭示导致品种特性形成的基因组差异,研究人员使用MUMmer4软件对‘国志鲜’、‘Sungold’和‘川志红’的基因组进行了比对。结果表明,‘国志鲜’和‘Sungold’之间显示出更高的共线性,共有633个同线性区域(~187 Mb)。相比之下,‘国志鲜’和‘川志红’之间存在更多的染色体倒位现象。这提示两个亲本基因组之间存在显著的结构变异,可能与其表型差异有关。
技术验证
该组装的高保真度得到了高比对率的支持:HiFi reads和ONT reads的比对率分别为99.83%和99.97%。Hi-C reads使用Juicer比对到最终版本的组装上,Hi-C热图中8条染色体沿对角线显示出强烈的互作信号,表明这些组装没有明显的染色体组装错误。此外,98.9%的BUSCO(Benchmarking Universal Single-Copy Orthologs)参考基因集被检测到。使用Merqury (v1.3)评估组装质量值(Quality Value, QV),QV值为39.7。LTR组装指数(LTR Assembly Index, LAI)为19.25。研究人员还分析了GZX_Primary、GZX_HapA和GZX_HapB三个基因组组装中的基因表达水平。在每个组装中鉴定出的基因总数如图所示,并且这些基因中有相当大比例显示出可检测的表达(TPM > 0),GZX_HapA最高,为74.48%,其次是GZX_HapB(73.79%)和GZX_Primary(72.19%)。所有这些质量评估数据都证明了该基因组组装的高质量和准确性。
综上所述,本研究成功构建了杏品种‘国志鲜’的高质量、无缺口的T2T参考基因组和单倍型解析组装。该基因组在连续性、完整性和准确性方面均超越了现有的亲本基因组,填补了所有缺口,并完全解析了端粒和着丝粒区域。研究还系统注释了重复序列和蛋白质编码基因,并揭示了‘国志鲜’与其亲本之间的基因组共线性关系。这项研究标志着杏基因组学研究的一个重要里程碑,克服了以往由基因组大小和复杂性带来的挑战。
这项研究成果具有多重重要意义。首先,这个高质量的T2T基因组为杏的功能基因组学研究提供了前所未有的精准蓝图,将极大地促进对杏重要性状(如果实风味、香气、抗逆性等)相关基因的挖掘和功能鉴定。其次,单倍型解析的基因组为了解杏的杂种优势、等位基因变异和遗传多样性提供了宝贵资源,为分子标记辅助选择(Marker-Assisted Selection, MAS)和基因组选择(Genomic Selection)育种提供了强大的工具。第三,通过与亲本基因组的比较,有助于揭示杏育种过程中人工选择留下的基因组印记,理解不同生态型(东方和西方)杏的遗传分化和驯化历史。最后,本研究展示的多技术整合组装策略(PacBio HiFi、ONT ultra-long、Hi-C)为其他复杂基因组的从头组装提供了可借鉴的范例。
总之,‘国志鲜’T2T基因组的发布是杏研究和育种领域的一项突破性进展。它不仅为科学家深入探索杏的生物学奥秘打开了新的大门,也为育种家培育具有更优性状、更强适应性的杏新品种奠定了坚实的遗传学基础,预示着杏产业将迎来更加精准和高效的育种新时代。所有相关的测序数据、基因组组装和注释文件均已公开存档,便于全球研究人员使用和进一步挖掘。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号