贝叶斯系统发育推断对离散形态性状相关性具有稳健性:模拟研究揭示拓扑结构恢复的准确性

《Paleobiology》:Bayesian inference of phylogenetic trees is not misled by correlated discrete morphological characters

【字体: 时间:2025年10月11日 来源:Paleobiology 2.7

编辑推荐:

  为解决贝叶斯系统发育推断中形态性状独立进化假设与现实中性状相关及速率异质性不符的问题,研究人员开展了大规模计算机模拟研究。结果表明,即使存在强相关性或异质性,贝叶斯推断仍能准确恢复系统发育树的拓扑结构,但分支长度或钟速率存在低估偏差。该研究支持了贝叶斯方法在形态系统学中的持续应用,并推荐使用F2v模型以改善参数估计。

  
论文解读
在探索生命演化的宏伟画卷中,科学家们常常需要回答一个核心问题:这些物种之间究竟是如何亲缘关系的?对于现生生物,我们可以借助基因组数据轻松绘制出它们的“家谱”。然而,对于早已灭绝的化石物种,我们只能依靠它们留下的骨骼、牙齿等形态特征来推断其演化历史。这些形态性状,是连接远古与现代的唯一桥梁。
在构建系统发育树(即物种演化关系树)时,科学家们近年来越来越青睐一种名为“贝叶斯推断”的统计方法。这种方法之所以强大,是因为它能够给出不同演化关系成立的可能性,而不仅仅是一个“是”或“否”的答案。然而,贝叶斯推断在分析形态数据时,通常默认一个重要的前提:每个形态性状(比如牙齿的形状、翅膀的结构)都是独立演化的,彼此之间没有关联。
这个“独立演化”的假设,在现实中往往并不成立。例如,一个物种的尾巴是否消失(性状一)和尾巴的颜色(性状二)这两个性状在逻辑上就是相互依赖的,因为如果尾巴消失了,讨论尾巴的颜色就毫无意义。此外,许多性状在功能或发育上也是紧密相关的。更复杂的是,不同性状的演化速率可能千差万别,有的性状在短时间内发生剧烈变化,而有的则保持稳定。这些复杂的现实情况,是否会让基于“独立演化”假设的贝叶斯推断方法得出错误的结论?这是古生物学和系统发育学领域一个亟待回答的关键问题。
为了回答这个问题,中国科学院古脊椎动物与古人类研究所的张驰研究员及其合作者刘雪儿在《Paleobiology》杂志上发表了一项重要的研究。他们通过大规模的计算机模拟实验,系统地评估了性状相关性和演化速率异质性对贝叶斯系统发育推断的影响。研究团队首先利用软件模拟生成了100棵包含现生和灭绝物种的演化树。随后,他们在这棵“真实”的树上,模拟了离散形态性状的演化过程。这些模拟涵盖了多种复杂的演化情景,包括:性状独立演化、性状间存在轻微或严重的相关性、以及性状演化速率在时间和不同性状间存在巨大差异等。最后,研究人员使用标准的贝叶斯推断软件(MrBayes),并假设性状独立演化,对这些模拟生成的数据进行分析,并将推断出的系统发育树与“真实”的树进行比较,从而评估该方法的准确性。
研究结果
拓扑结构推断的稳健性
研究最核心的发现是,贝叶斯推断在恢复系统发育树的拓扑结构(即物种间的分支关系)方面表现出惊人的稳健性。无论是性状间存在强相关性,还是演化速率存在高度异质性,该方法都能准确地推断出物种间的正确关系。这意味着,即使模型假设与真实演化过程不符,贝叶斯方法依然能够“抓住”数据中蕴含的主要系统发育信号,得出可靠的物种亲缘关系结论。
分支长度与钟速率的低估
尽管拓扑结构推断准确,但研究也揭示了一个重要的偏差:当演化速率存在高度异质性时,贝叶斯推断会系统性地低估分支长度或钟速率。简单来说,该方法倾向于认为演化过程发生得更慢,导致推断出的演化时间比实际更短。这种低估在使用了最简单的M2v模型时最为严重。
F2v模型的校正作用
研究人员发现,使用一个更复杂的模型——F2v模型,可以部分校正上述的偏差。F2v模型通过一个先验分布来整合不同性状的状态频率异质性,从而更好地适应了真实演化过程中的复杂性。虽然F2v模型在拓扑结构推断上的表现与M2v模型相似,但它能显著改善分支长度和钟速率的估计,使其更接近真实值。
缺失数据的影响
为了模拟真实数据集的常见情况,研究人员还测试了数据中存在缺失值(如化石记录不完整)的情况。结果显示,缺失数据主要降低了推断结果的精确度(即增加了不确定性),导致系统发育树中出现更多未解析的节点,但对已解析部分的准确性影响不大。
结论与讨论
这项研究为形态系统发育学领域提供了强有力的定心丸。它证明,尽管贝叶斯推断方法通常假设形态性状独立演化,但这一假设的违反并不会误导我们对物种演化关系的判断。贝叶斯方法在拓扑结构推断上的稳健性,支持了其在古生物学和系统发育学中的广泛应用。
然而,研究也提醒我们,当研究目标不仅仅是物种关系,还包括演化时间或速率时,需要更加谨慎。简单的模型可能会导致对分支长度和演化速率的严重低估。因此,研究人员强烈推荐在分析中使用F2v模型,或者将数据划分为多个分区并分别估计其演化速率,以更准确地捕捉演化过程的复杂性。
这项研究不仅验证了现有方法的可靠性,也为未来的方法学发展指明了方向。未来的研究可以进一步探索如何将连续性状的演化模型(如阈值模型)整合到系统发育推断中,以更直接地处理性状间的相关性,从而在复杂演化过程的迷雾中,更清晰地描绘出生命演化的真实图景。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号