羽毛起源与演化:祖先状态估计方法对复杂性状重建的影响研究

【字体: 时间:2025年09月14日 来源:Systematic Biology 5.7

编辑推荐:

  本研究针对羽毛演化起源争议,通过系统比较祖先状态估计(ASE)方法中外群选择、时间标定、模型选择与性状编码策略的影响,发现树时间标定方法和外群选择对结果影响显著。研究支持羽毛在恐龙与翼龙中的多次独立起源,并提出较晚的演化时间框架,为复杂性状的祖先重建提供了方法学范式和最佳实践建议。

  

羽毛作为鸟类适应飞行的重要演化创新,其起源问题一直是演化生物学争论的焦点。近年来,在中国侏罗纪-白垩纪交界地层中发现的保存异常精美的化石证据显示,丝状皮肤衍生物不仅存在于多种恐龙类群中,甚至在翼龙类中也发现了类似结构。这些形态多样的皮肤结构呈现出明显的演化梯度:从简单的单丝状结构到具有中央羽轴和羽片的复杂飞羽结构,其中较简单的形态广泛分布,而更复杂的形态(如羽片状羽毛)仅出现在更接近现代鸟类的类群中。然而,关于这些结构的同源性问题存在严重分歧:一些研究认为所有丝状结构具有单一起源,可追溯至2.5亿年前;另一些研究则支持多次独立起源假说,认为丝状结构在不同类群中独立演化。

这些相互矛盾的结果很大程度上源于祖先状态估计(Ancestral State Estimation, ASE)方法学的差异。ASE作为一种重要的系统发育比较方法,通过结合系统发育树、演化模型和性状观测数据三个核心组件,重建性状的演化历史。然而,在羽毛这类复杂性状的研究中,外群选择策略、树时间标定方法、演化模型的选择以及性状编码方案都可能对结果产生显著影响,但目前缺乏系统的方法学比较研究。

为了解决这一方法学难题,研究人员在《Systematic Biology》上发表了这项综合性研究,通过系统比较不同ASE方法对羽毛演化历史重建的影响,旨在澄清羽毛起源争议,并为复杂性状的祖先状态估计提供方法学指导。

研究采用了多种关键技术方法:首先收集了94个恐龙和翼龙类群的羽毛形态数据,基于文献回顾确定了13种羽毛形态类型的分布;使用修订后的系统发育树,通过timePaleoPhy和DatePhylo函数进行时间标定,采用相等分支长度(equal)和最小分支长度(mbl)方法;应用corHMM包进行边际似然估计,比较了等速率(ER)、对称(SYM)和全速率不同(ARD)三种转移速率模型;测试了从简单二元到复杂六态的三种性状编码策略;引入了嵌入式依赖(ED)模型和结构马尔可夫模型(SMM)处理性状间的层次依赖关系;采用留一交叉验证(LOOCV)评估模型泛化能力;最后通过模型平均化处理整合不同模型的不确定性。

外群选择的影响分析

研究表明,在外群选择实验中,SYM模型下的祖先状态估计对外群选择不敏感,而ARD模型则表现出明显依赖性。使用单个外群时,模型倾向于推断羽毛在演化早期即已出现;而增加外群数量(特别是包含三个化石类群时)则支持羽毛缺失的祖先状态。通过类似LOOCV的方法评估发现,外群选择对内群tip状态估计的平均误差影响有限(ARD模型下最高与最低误差仅差0.01)。信息量分析表明,包含三个化石类群的外群方案为鸟跖类(Avemetatarsalia)节点提供了最多信息量,是最优的外群选择方案。

时间标定方法的比较

研究比较了三种时间标定方法:equal timePaleoPhy、equal DatePhylo和mbl方法。equal timePaleoPhy方法产生的内部节点时间分布较为均匀,分支长度变异较小;mbl方法产生较长的内部分支和较短的末端分支;equal DatePhylo方法则介于二者之间。结果表明,时间标定方法对祖先状态估计结果影响显著,特别是在模型不确定性较高的节点处。基于AICc的标准,equal timePaleoPhy方法表现出最好的模型拟合优度。

性状编码策略的评估

研究测试了从简单到复杂的三种编码策略:二元编码(鳞片/羽毛)、三态编码(增加丝状与羽片状区分)和六态编码(进一步区分主要羽毛形态类别)。结果显示,不确定性随性状状态数量增加而增加,但不同编码策略对羽毛起源的基本解释模式保持一致。所有编码方案都支持鸟跖类和恐龙总目节点最可能的状态是羽毛缺失,表明编码策略对宏观演化推论的影响相对有限。

演化模型的选择比较

研究全面比较了21种演化模型,包括标准马尔可夫模型(Unordered, Ordered)、嵌入式依赖模型(ED)、结构马尔可夫模型(SMM-ind, SMM-sw)和隐藏速率模型(HRM)。AIC选择支持ARD Ordered模型为最佳拟合模型,而最简单的一参数ER Unordered模型虽然不确定性最低,但拟合优度最差。SMM模型在ARD条件下表现出很高的不确定性,而HRM模型的不确定性与速率类别数量无明确相关性。

树-模型组合的全面评估

通过63种树-模型组合的比较发现,仅7种组合推断鸟跖类节点存在羽毛,且多数伴随高不确定性。基于AIC/AICc的最佳组合为ARD Ordered模型与mbl树,而基于LOOCV误差度量则有18种组合表现出相当的泛化能力。模型平均化结果显示,无论基于Akaike权重还是LOOCV误差权重,都支持羽毛多次独立起源的结论。

交叉验证方法的有效性

LOOCV结果显示模型平均误差在0.33-0.45之间,与AIC/AICc缺乏明显相关性。一些高AIC值的模型(如SYM HRM 2与mbl树组合)实际上具有最低的LOOCV误差(约0.34)。这表明对于祖先状态估计这类小数据集问题,模型拟合优度不能可靠预测泛化能力。

研究结论表明,羽毛很可能在恐龙和翼龙中经历了多次独立起源,支持较晚的起源时间(1.9-2.12亿年前),而非先前研究提出的早期单一起源假说。羽片状羽毛可能起源于近鸟类(Paraves)和窃蛋龙类(Oviraptorosauria)的共同祖先,时间约在1.85亿年前的下侏罗纪。飞羽的不对称性可能在驰龙科(Dromaeosauridae)和鸟类中独立演化或从共同祖先继承。

讨论部分强调,外群选择对基部节点祖先状态估计的影响尤为显著,建议选择多个代表不同演化谱系的外群类群。时间标定方法通过改变分支长度和节点时间位置影响ASE结果,推荐测试不同树-模型组合并通过LOOCV选择最佳方案。虽然性状编码策略对宏观演化推论影响相对较小,但仍需谨慎对待。最重要的是,研究发现模型拟合优度(AIC/AICc)与泛化能力(LOOCV误差)缺乏相关性,表明对于小数据集问题,应优先使用交叉验证方法评估模型性能。

该研究为复杂性状的祖先状态估计提供了重要方法学框架,强调在外群选择、时间标定、模型选择和性状编码等方面需要系统性的方法学验证。研究成果不仅澄清了羽毛演化历史中的关键争议,也为未来研究复杂性状的演化提供了最佳实践指南。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号