解析有丝分裂基因组冲突揭示被子植物深层系统发育:序列与结构证据的创新整合

《Plant Diversity》:Dissecting Mitogenomic Conflict to Illuminate Angiosperm Deep Phylogeny: Sequence and Architectural Evidence

【字体: 时间:2025年10月27日 来源:Plant Diversity 6.3

编辑推荐:

  为解决被子植物深层系统发育关系长期存在的“令人厌恶的谜团”,研究人员开展了“PhyloForensics”框架下的线粒体基因组冲突研究。通过填补Chloranthales和Ceratophyllales的mitogenome空白,系统诊断信号冲突驱动因素,发现信号异质性(t_Entropyvar)和信息位点比例(info_sites_ratio)是基因树冲突的主要驱动因素。剔除“高冲突基因”后成功解析了深层级 incongruence,获得高支持度的单一拓扑结构,并结合mitogenome架构特征揭示了分支长度与GC含量、RNA编辑位点的显著负相关关系,为深度演化历史研究提供了综合策略。

  
被子植物作为地球上最成功的植物类群,其惊人的多样化进程——涵盖超过35万个现存物种——被达尔文称为“令人厌恶的谜团”,至今仍在挑战着我们对植物演化的认知。尽管高通量测序技术和大量大规模系统发育研究取得了进展,但主要被子植物谱系间的系统发育关系仍然存在争议。当前Angiosperm Phylogeny Group (APG IV)框架识别出早期分化的ANA grade(包括Amborellaceae、Nymphaeales和Austrobaileyales)和更多样化的核心被子植物(包含Magnoliids、Chloranthales、Ceratophyllales、monocots和eudicots)。虽然64个目的分类相对稳定,但核心被子植物中五个主要谱系间的系统发育关系仍未解决。
最近的研究采用了更全面的基因组数据集和更广泛的分类单元取样,却产生了相互冲突的拓扑结构。这种持续的不确定性表明需要额外的数据类型和分析策略。两个主要争议主导着这些系统发育冲突:首先是核心被子植物中最早分化的谱系在不同数据集间存在变异——一些核基因分析支持monocots作为其余核心被子植物的姐妹群,而质体基因组数据则倾向于Magnoliids或Chloranthales处于这个位置。先前的线粒体分析提出了额外的冲突,有些表明monocots和Magnoliids共享一个最近共同祖先。其次,Ceratophyllales和Chloranthales之间的关系因基因组区室而异:线粒体数据支持它们的姐妹群关系,而核和质体数据集通常将Ceratophyllales放置得更接近eudicots,将Chloranthales放置得更接近Magnoliids。
解决这些关系的挑战源于多种生物学因素,包括早期被子植物的快速辐射、不完全谱系分选、杂交和基因渗入、多倍化以及其他混杂影响。测序、组装和系统发育推断中的方法学限制进一步使分析复杂化。此外,两个关键被子植物类群Chloranthales和Ceratophyllales的完整线粒体基因组仍然不可用,这进一步阻碍了解决五个主要支系间关系的努力。
为了应对这些挑战,本研究旨在:(1)填补Chloranthales和Ceratophyllales的关键mitogenome空白,从而为解析细胞核-细胞器冲突建立稳健的案例研究;(2)开发并应用一个新的诊断框架来系统识别mitogenomic信号冲突的驱动因素;(3)通过证明该框架解析不一致性和揭示更一致系统发育信号的能力来实证验证它;(4)将这些基于序列的发现与mitogenomic结构特征的多方面分析相结合,以提供全面的进化叙事。
研究人员采用了多项关键技术方法:通过结合Illumina短读长和Nanopore长读长的混合组装方法生成高质量、完整的环状线粒体基因组;使用标准化流程(IPMGA用于线粒体,CPGAVAS2用于质体)对所有基因组进行重新注释;基于序列保守性对基因进行严格过滤,保留高置信度的初级直系同源基因;构建五种不同的线粒体数据集(完整编码序列、第一和第二密码子位置、氨基酸序列和两个经RNA编辑预测计算调整的数据集);采用四种不同的系统发育重建策略(未分区的最大似然法、分区最大似然法、未分区的贝叶斯推断和分区贝叶斯推断);开发并应用四阶段的PhyloForensics框架来系统解剖系统发育冲突的来源。样本来源于NCBI数据库的55个已发表线粒体和质体基因组序列,以及Chloranthales和Ceratophyllales的NCBI SRA数据。
3.1. 填补关键系统发育空白:Chloranthales和Ceratophyllales的首次mitogenome组装
研究人员首次组装了Chloranthales(Chloranthus sessilifolius)和Ceratophyllales(Ceratophyllum demersum)的代表物种的完整线粒体基因组。C. demersum的mitogenome由三个环状亚基因组组成,总长度为594,967 bp,包含73个独特基因。C. sessilifolius的mitogenome被组装成四个环状亚基因组,总长度为862,408 bp,包含60个独特基因。两个mitogenome中的重复序列注释和可视化显示这些序列是整体基因组结构的重要组成部分,对基因组大小变异有显著贡献。
3.2. 动态基因内容进化:被子植物mitogenomes中广泛的核糖体基因丢失
重新注释所有基因组后发现,核糖体蛋白基因(rpl, rps)在被子植物谱系中表现出广泛的丢失,特别是在monocots和eudicots中。这种核糖体基因丢失的模式与质体基因组的相对保守性形成鲜明对比,表明在被子植物多样化过程中线粒体基因组具有不同的进化轨迹。相反,与能量代谢相关的基因,如编码ATP合酶、细胞色素c氧化酶和NADH脱氢酶复合体的基因,高度保守,基因丢失实例较少。
3.3. 系统发育信号变异和细胞器数据集间的拓扑不一致
对29个线粒体基因和73个质体基因的系统发育分析揭示了普遍的拓扑冲突。最根本的细胞器间冲突涉及Ceratophyllum和Chloranthus的位置。在所有20个分析中,线粒体数据一致地恢复了Ceratophyllum + Chloranthus的单系群,而质体数据的主要信号拒绝了这种配对,将Ceratophyllum作为eudicots的姐妹群。然而,线粒体C + C信号的这种内部一致性并未延伸到树的更深层主干。这个稳定的C + C支系与其他主要谱系(monocots、eudicots和magnoliids)的关系高度不稳定,产生了至少四种不同的主干拓扑结构。
3.4. PhyloForensics解剖揭示稳健、系统和普遍的信号冲突
应用四阶段PhyloForensics框架定量评估了整个系统发育中的冲突。主要CDS-ML参考树揭示了一个核心分析挑战:许多具有高bootstrap支持率的节点表现出极低的基因(gCF)和位点(sCF)一致性因子。这种统计重采样置信度高但基础数据一致性低的差异,指向了强烈的、系统性的冲突而非随机误差。这种深度冲突不是单一分析选择的假象,该模式在最高支持度的替代参考拓扑中保持稳健。
3.5. 基因稳定性驱动因素分析揭示信息内容和信号异质性是关键因素
为了超越拓扑依赖的冲突指标,研究人员通过计算每个基因分区在一组竞争拓扑中位点似然对数得分(logL)的标准差(logL_SD)来量化每个基因分区的内在稳定性。使用肘部法客观地将16个最稳定的分区(19个基因)分类为"Optimal Set",其余6个分区(10个基因)为"Noisy Set"。多变量线性回归模型结合迭代方差膨胀因子(VIF)消除,确定信号异质性(t_Entropyvar)和信息位点比例(info_sites_ratio)是基因稳定性的两个主导因素,共同解释了模型中基因稳定性方差的48.1%。
3.6. PhyloForensics框架验证:最优基因集恢复更一致的系统发育
为实证验证PhyloForensics框架,研究人员使用仅来自"Optimal Set"的基因构建了新超矩阵,并重复了全套系统发育分析。结果提供了该框架在减少信号冲突方面有效性的令人信服的证据。成功的分析恢复了一个单一的、高度一致的拓扑结构,该结构在完整数据集衍生的20棵树中均未出现。这种新拓扑结构将Monocots作为Magnoliids的姐妹群,这个支系又作为Ceratophyllales + Chloranthales支系的姐妹群;然后整个群组作为Eudicots的姐妹群被恢复。
3.7. 线粒体基因组架构的谱系特异性模式
除了基于序列的系统发育学,研究人员分析了线粒体基因组特征是否能提供补充的系统发育信号。分析了多个连续特征(基因组大小、GC含量、RNA编辑位点、重复特征)和离散特征(基因结构变异)。基因组大小在被子植物间显示出显著变异, basal angiosperms表现出最大的平均mitogenome大小,而最小的mitogenome属于海草Zostera marina。Eudicots和monocots显示出相似的平均基因组大小,表明在最佳基因组大小上可能存在趋同。GC含量和RNA编辑位点数量也有相当大变异。
3.8. 线粒体基因组特征的系统发育相关性和相关进化
为了确定线粒体基因组特征是否包含系统发育信号并以相关模式进化,研究人员基于完整蛋白质编码基因集衍生的树进行了系统发育比较分析。计算了每个特征的Blomberg's K统计量,该统计量量化了相对于布朗运动模型预期的系统发育信号强度。分支长度表现出最强的系统发育信号,GC含量和RNA编辑位点数量显示K值接近1,表明这些性状遵循布朗运动模型进化。大多数重复相关特征也表现出显著的系统发育信号。
研究表明,通过整合经验验证的冲突解决框架与架构基因组学,为探索深层进化历史的复杂性提供了全面策略。研究人员开发的PhyloForensics框架能够系统识别系统发育不稳定的来源,并通过移除一小部分"高冲突基因"来解决深层级的不一致性,揭示了一个先前被噪声掩盖的单一、高支持度的拓扑结构。此外,mitogenome架构提供了强大的系统发育信号,揭示了可预测的、mitogenome范围的进化模式,如分支长度与GC含量和RNA编辑位点之间的显著负相关。
这些发现对理解被子植物进化具有重要意义:首先,解决了长期存在的cyto-nuclear冲突问题,为被子植物深层系统发育关系提供了新的解决方案;其次,开发的PhyloForensics框架为未来系统发育研究提供了新的分析方法论;第三,揭示了线粒体基因组结构特征与进化历史之间的深刻联系,为理解基因组进化机制提供了新见解;最后,研究填补了关键类群Chloranthales和Ceratophyllales的mitogenome空白,为后续比较基因组学研究提供了重要资源。该研究通过整合多维度证据,为解析被子植物"令人厌恶的谜团"提供了创新性的综合框架。
论文发表在《Plant Diversity》期刊,展示了中国科研团队在植物系统发育基因组学领域的重要贡献,研究方法和结论对植物进化生物学和基因组学研究具有重要的理论和实践意义。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号