番茄Heinz 1706栽培品种端粒到端粒完整参考基因组的构建与分析

《Plant Communications》:A telomere-to-telomere reference genome assembly of tomato cultivar Heinz 1706

【字体: 时间:2025年11月21日 来源:Plant Communications 11.6

编辑推荐:

  本刊推荐:为解决现有番茄参考基因组SL5.0存在31处缺口、21个端粒缺失及45S rDNA信息缺乏等问题,研究人员利用超长牛津纳米孔测序技术,成功完成了番茄栽培品种Heinz 1706的端粒到端粒基因组组装。新基因组SL-T2T大小为831.45 Mb,填补了所有缺口,包含了全部24个端粒和约3400个45S rDNA单元,并揭示了着丝粒和卫星DNA的完整结构及其DNA甲基化景观,为番茄基因组学和育种研究提供了高质量新参考。

  
番茄(Solanum lycopersicum)是全球最重要的蔬菜作物,也是研究果实发育及生物与非生物抗性机制的模式植物。十多年前,科学家们发布了第一个番茄栽培品种Heinz 1706的基因组序列,随后利用Pacific Biosciences的HiFi测序数据进行了改进,产生了SL5.0版本。然而,这个版本仍然不够完整,存在31个缺口、21个缺失的端粒,并且缺乏45S核糖体RNA基因的信息。基因组中的这些空白和不确定区域,尤其是富含重复序列的区域,如着丝粒、端粒和核糖体DNA阵列,一直是理解基因组完整功能、进化以及关键农艺性状遗传基础的障碍。近年来,超长读长测序技术,特别是牛津纳米孔测序技术的突破,使得完成从一端端粒到另一端端粒的完整基因组组装成为可能,并在多种植物中得以实现。因此,为番茄提供一个高质量的T2T参考基因组,对于推动其基因组学、进化生物学和分子育种研究至关重要。
为了回答这一挑战,由陈永顺、田娇阳、赵玉慧、张金哲和梁承志组成的研究团队,在《Plant Communications》上发表了他们的研究成果。他们利用超长牛津纳米孔测序技术,成功构建了番茄Heinz 1706栽培品种的端粒到端粒完整参考基因组,命名为SL-T2T。
研究人员主要采用了以下几项关键技术:首先,他们产生了大量高质量的超长ONT读长和Illumina短读长数据进行测序。接着,利用Hifiasm和Verkko等软件进行基因组组装和支架搭建,并利用短读长数据对组装的序列进行单核苷酸多态性和小插入缺失的校正。最后,通过Merqury、BUSCO评估以及读长比对等多种方法对组装质量进行严格验证,并利用生物信息学工具进行基因注释、重复序列分析、着丝粒鉴定以及全基因组DNA甲基化位点识别。
SL-T2T基因组的组装与质量评估
研究人员通过对Heinz 1706进行测序,获得了95.7 Gb的超长ONT读长和11.8 Gb的Illumina短读长。使用高质量的ONT读长进行初步组装后,通过延伸染色体末端和搭建支架,最终得到了一个总大小为831.45 Mb的基因组序列SL-T2T。该基因组由12条染色体构成,包含了全部24个端粒,其重叠群N50大小达到68.49 Mb。除了染色体2上的45S rDNA阵列因高度重复性而未能完全闭合(用4个各含100个“N”的缺口表示)外,其余部分均已完整组装。通过与其他独立组装结果比较、读长映射率分析、Merqury质量值估计以及BUSCO完整性评估,均证实了SL-T2T具有极高的碱基准确性和完整性。
SL-T2T与SL5.0基因组的比较
与SL5.0相比,SL-T2T增加了29.67 Mb的新序列,其中绝大部分是45S rDNA和其他串联重复序列。SL-T2T成功填补了SL5.0中的所有31个缺口,并纠正了SL5.0中存在的两处序列倒置和三处序列易位错误。这凸显了超长高精度ONT读长在组装复杂基因组区域方面的优越性。
基因与重复序列注释
研究者在SL-T2T中注释了36,006个基因,并对重复序列进行了全面分析,发现66.51%的基因组由重复序列组成,其中大部分是转座子。此外,还鉴定出两种卫星DNA和两种小卫星DNA。
着丝粒与卫星DNA的特征
利用着丝粒富集的重复序列TGRIV,研究团队在SL-T2T中鉴定出12个着丝粒,总长度为40.90 Mb。值得注意的是,尽管着丝粒区域的基因密度低于基因组平均水平,但仍存在582个注释基因。研究还详细描述了一种名为SlSat181的卫星DNA在亚端粒区和部分着丝粒中的分布,以及广泛分布的小卫星DNA SlSat35。
45S核糖体DNA的完整解析
SL-T2T首次完整揭示了番茄中45S rDNA的规模和组织形式。研究估算Heinz 1706基因组中约有3400个完整的45S rDNA单元,其中在染色体2的端粒附近组装出了2105个单元,总长19.11 Mb。这些单元方向一致,且序列相似度极高。研究还发现了两个假性45S rDNA区域,它们可能源于45S rDNA的降解和SlSat53小卫星的扩张。
全基因组DNA甲基化景观
利用ONT测序数据,研究人员在SL-T2T中识别了近4850万个甲基化位点,并分析了不同基因组区域的甲基化模式。研究发现,串联重复序列中的CG位点甲基化密度和比例远高于基因组平均水平,这与人类基因组中的模式相似,提示mCG可能在维持基因组完整性中发挥作用。此外,在45S rDNA区域,CG和CHG甲基化的密度最高,而在基因上游区域,CHH甲基化的密度有所增加,反映了不同类型DNA甲基化在基因调控和基因组稳定性维持中的不同功能。
综上所述,该研究成功构建了番茄Heinz 1706栽培品种的高质量、完整的端粒到端粒参考基因组SL-T2T。这项研究不仅填补了现有参考基因组的空白,纠正了错误,还首次详细揭示了番茄着丝粒、端粒、45S rDNA阵列等复杂区域的结构特征,并绘制了全基因组DNA甲基化图谱。SL-T2T基因组的发布为番茄的功能基因组研究、比较基因组学、进化分析以及分子育种提供了一个更为精确和全面的蓝图,将极大地促进对番茄生物学性状的理解和遗传改良 efforts。所有相关数据均已公开,可供全球研究人员使用。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号