超越线性:一种用于复杂甘蔗作物的高通量全基因组多尺度解析方法

《Tropical Plants》:Beyond linearity: a multiscale pangenome map for complex sugarcane

【字体: 时间:2026年05月09日 来源:Tropical Plants CS1.4

编辑推荐:

   介绍:甘蔗基因组研究中的技术瓶颈 甘蔗(Saccharum 属)的改良受到复杂混合倍性、非整倍体和种间杂交的严重阻碍。最近,黄等人构建了首个多尺度甘蔗泛基因组图谱,整合了九个基因组组装片段。[1] 该框架克服了传统线性

  
  • 甘蔗(Saccharum 属)的改良受到复杂混合倍性、非整倍体和种间杂交的严重阻碍。最近,黄等人构建了首个多尺度甘蔗泛基因组图谱,整合了九个基因组组装片段。[1] 该框架克服了传统线性参考基因组的局限性,将基因组多样性的捕获率从34%提高到82%,并通过新的全基因组关联研究(GWAS)方法鉴定了关键的农艺位点(如糖含量、叶片角度)。我们将重点介绍这项研究在技术、统计和生物学方面的创新。

    现代甘蔗品种通常具有极高的染色体数目(2n = 100–130)以及复杂的同源/同源关系,这主要是由于一个多世纪前 S. spontaneumS. officinarum 之间的种间杂交和回交造成的。传统的单一线性参考序列无法同时容纳不同倍性水平、染色体数目和遗传背景带来的变异,导致多组学分析中存在显著的映射偏差和参考偏差。为了克服这些瓶颈,现代品种的无间隙基因组组装(例如 R570、SP80-3280)为多基因组整合提供了不可或缺的基准。同时,野生近缘种(例如 Erianthus rockii)的端到端(T2T)基因组组装丰富了等位基因池,有助于追踪抗逆性状。[3] 此外,对全球种质资源的大规模重测序为大规模群体研究积累了关键数据。

    研究团队使用了 PGGB(PanGenome Graph Builder)工具流程(图1)来整合涵盖四个物种的九个染色体级基因组组装,包括现代品种、祖先物种和外群。统计数据显示,这个超级泛基因组图谱包含约4.259亿个节点,总长度为14.7 Gb,压缩比为34.03%。该图谱结构保留了47–57个单倍型,并捕获了大约82%的甘蔗基因组多样性,显著高于单一线性参考基因组的34%。该研究实现了从基因组到基因和蛋白质级别的多尺度覆盖,定义了“图链接”(gL)和“图气泡”(gB)等复杂性指标,以表征同源基因簇内的变异程度。

    图1. 甘蔗基因组泛基因组图的流程和主要结果。

    如先前报道,基于图谱的参考基因组显著降低了高倍性基因组的比对难度。在转座酶可及染色质(ATAC)测序分析中,使用图谱比对的独特映射率超过50%,是单倍线性能量参考基因组的两倍多,是具有同源等位基因识别的线性能量参考基因组的十倍。这一改进使研究人员能够额外识别出6,831–19,202个可及染色质区域(ACRs),并解析了糖转运位点(如 SUT1)的等位基因特异性调控。

    作者对417个混合倍性甘蔗样本进行了深度重测序(约18 Tb的数据)。通过选择清除扫描和跨群体复合似然比(XP-CLR)分析,研究人员发现了1,664个处于选择状态的基因,这些基因在蔗糖代谢(如 SWEETSSUSSTP)和植物结构调节(如 TB1tin1)通路中富集。除了这些已知通路外,最近的研究还克隆并功能验证了新的蔗糖转运蛋白(SUT)家族成员,解析了它们的等位基因特异性调控,从而更好地调控了蔗糖的运输。此外,研究范围迅速扩展到抗逆性方面;隔离出了控制耐旱性和耐寒性的新网络,如 ScDREBScbHLH,以及控制黑粉病抗性的核苷酸结合位点富亮氨酸重复(NBS-LRR)基因簇,反映了现代育种目标的多样性。共进化分析显示,甘蔗与高粱(Sorghum bicolor)之间存在显著的基因组范围收敛选择(232对同线性同源基因),而与玉米(Zea mays)的收敛性较弱。[4]

    为了解决高倍性物种中基因型枚举的挑战,研究引入了剂量GWAS方法。该方法直接模拟连续的等位基因剂量,而不是依赖于传统的离散基因型。在有效性评估中,剂量GWAS显著提高了性状的遗传率估计,糖类性状的遗传率提高了0.06,叶片角度的遗传率提高了0.19。通过基因挖掘方法,在 SaIRX10(与糖相关的)和 SaBAK5(与叶片角度相关的)位点附近发现了精确的剂量-表型梯度关联。

    我们认为,这项工作的核心贡献在于建立了一套适用于复杂多倍体的基因组学工具链。从技术角度来看,研究人员不仅解决了甘蔗基因组的压缩和表示问题,更重要的是,利用了“连续剂量”的数学抽象来规避非整倍体和精确基因型鉴定在多倍体物种遗传分析中难以处理的难题。这一方法论框架具有普遍性,并已成功扩展到小麦(Triticum aestivum,六倍体)、棉花(Gossypium hirsutum,异源四倍体)和马铃薯(Solanum tuberosum,自源四倍体),显示出强大的跨物种可扩展性。这一扩展与最近的里程碑式成就(如六倍体小麦基因组的无间隙组装)相一致,标志着所有复杂禾本科作物的方法论范式的转变。

    此外,该研究实现了功能验证的闭环;使用 clustered regularly interspaced short palindromic repeats(CRISPR)-CRISPR-associated protein 9(Cas9)敲除 SaTB1 基因成功增加了分蘖数。作为分蘖调节因子,SaTB1 可以成为育种中提高产量的直接目标。为了进一步完善从发现到田间验证的技术闭环,目前正在甘蔗胚胎发生愈伤组织中优化高效的核糖核蛋白(RNP)递送和多等位基因编辑系统。

    最后,图谱泛基因组支持更精确的标记设计和等位基因挖掘,为甘蔗的基因组选择(GS)奠定了数据基础。[5] 尽管目前机器学习被用于将基因组数据转化为田间表现,但仍然需要基于人工智能的大型模型来整合多尺度组学和农业数字孪生数据,以进行动态的、耐气候的模拟。尽管前景广阔,但仍存在一些基础性限制。从多尺度图谱中提取预测值需要大规模的计算资源,而准确的等位基因剂量估计仍依赖于昂贵的深度测序。此外,即使有准确的模型,复杂的杂交体中的转化效率和连锁拖累仍然对基因组资源的实际应用构成了重大障碍。

    总的来说,黄等人的研究(2026年)将甘蔗基因组学从线性参考时代推进到了基于图谱的综合全景视图时代,这得益于多尺度泛基因组技术。他们提出的剂量GWAS方法为所有复杂多倍体物种的关联分析提供了新的蓝图。这在植物基因组学领域代表了重要的方法论进展。总体而言,这项研究为培育高产和高品质甘蔗提供了新的基因资源地图和分析工具。

  • 作者对本文的贡献如下:提出本文观点的作者是 Que Y 和 Chen F;分析和整理文章及数据的是 Zhang J、Wu Q、Li J 和 Ye F;起草文章的是 Zhang J、Chen F 和 Que Y。所有作者都审阅了结果并批准了手的最终版本。

    相关新闻
    生物通微信公众号
    微信
    新浪微博

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号