应用位点异质性模型未能解决蚂蚁系统发育争议:对Cai(2024)研究的批判性评估

【字体: 时间:2025年10月14日 来源:Communications Biology 5.1

编辑推荐:

  本研究针对Cai(2024)在《Communications Biology》发表的蚂蚁系统发育研究提出质疑。研究人员通过分析发现,Cai声称使用CAT-GTR模型解决了蚂蚁基部系统发育问题的结论存在严重缺陷。研究指出其存在模型测试不充分、数据分析不规范、未能真正模拟组成异质性(compositional heterogeneity)以及结果不可重复等问题。这项工作强调了在系统发育研究中正确区分位点异质性(site heterogeneity)与组成异质性的重要性,对进化生物学研究具有重要的方法论指导意义。

  
在进化生物学研究领域,蚂蚁的系统发育关系一直是研究者们关注的焦点问题。其中,神秘的地下蚂蚁物种Martialis heureka的系统发育位置尤其引人注目,它被认为是所有现存蚂蚁的姐妹群,或者是除Leptanillinae亚科外所有蚂蚁的姐妹群,亦或是Leptanillinae的姐妹群(即Leptanillomorpha假说)。这个问题的解决对于理解蚂蚁的早期进化历史具有重要意义。
近年来,随着基因组学数据的大量产生,系统发育研究面临着新的挑战。大型数据集虽然提供了更多信息,但也可能引入系统误差,导致支持相互排斥的假说。位点异质性模型,特别是CAT-GTR模型,被认为是解决这一问题的有力工具,但其复杂性和在实际应用中的表现仍需深入评估。
在此背景下,Cai(2024)在《Communications Biology》发表研究,声称通过应用位点异质性模型,特别是CAT-GTR模型,解决了蚂蚁基部系统发育的争议问题,推翻了之前Romiguier等人(REA)和Borowiec等人(BEA)的研究结果。这项研究似乎为这个长期争议的问题画上了句号。
然而,科学的发展需要不断的质疑和验证。Boudinot和Lieberman对Cai(2024)的研究进行了深入分析,发现了其中存在的多个严重问题,并在《Communications Biology》发表了这篇"Matters arising"文章,对原研究的结论提出了有力质疑。
研究人员主要通过重新分析Cai(2024)使用的数据集和分析方法来验证其结论的可靠性。关键技术方法包括:使用PhyloBayes软件进行贝叶斯系统发育分析,应用CAT-GTR等位点异质性模型;使用IQ-TREE2进行最大似然法系统发育分析;通过AMAS工具计算序列比对的可变位点百分比;评估模型收敛性的统计指标如有效样本量(ESS)等。研究还重新分析了Romiguier等人和Borowiec等人的原始数据集。
研究结果
分析方法存在严重缺陷
研究发现Cai(2024)提供的分析统计信息极其有限,未能提供基本的"trace"和"treelist"文件,这些是评估贝叶斯分析收敛性的基本要求。没有这些文件,无法判断CAT-GTR分析是否达到了平稳状态和充分混合,分析的成功与否存在很大不确定性。
大多数分析实际上支持原有假说
值得注意的是,Cai(2024)的大多数分析结果实际上支持REA的结论,即Leptanillomorpha假说。只有在使用CAT-GTR模型分析特定的Matrix 5数据集时,才得到了作者偏好的结果。当研究人员使用IQ-TREE2选择的位点同质模型重新分析这个异常矩阵时,发现这种效应并不依赖于位点异质性建模,而是极端矩阵修剪的结果。
模型测试不充分
Cai(2024)的模型测试存在明显不足。由于有限的模型比较,支持CAT-GTR几乎是一个既定结论。此外,尽管C24中的三个矩阵来自不同的起始数据集,并且都包含不同的位点和/或分类单元集,但模型拟合度评估仅基于五个矩阵中的一个进行了交叉验证和后验预测。
未能真正模拟组成异质性
最关键的是,Cai(2024)并未如文中和标题所声称的那样模拟组成异质性。像CAT-GTR这样的谱系混合模型实际上假设组成同质性,即树中终端或分支间核苷酸或氨基酸比例的一致性,它们模拟的是位点异质性(即比对中位点频率模式的差异)。这两种偏差来源是不同的,需要根据数据处理策略分别建模。
CAT-GTR模型的局限性
谱系混合模型通过为每个位点分配一个交换矩阵来适应位点异质性,该矩阵具有从混合分布中提取的平稳频率向量。虽然CAT-GTR可能更好地近似生物现实并拟合良好,但它仍然不完全被理解,特别是在类别数量、偏斜占用以及在具有可变缺失数据、分类单元采样以及异质程度和分布的数据集上的表现等方面。在大型数据集中,估计的类别数量可能远高于数据中实际存在的位点异质性数量,这可能导致虚假结果。
收敛性问题
CAT-GTR在实践中还存在更多复杂问题,其众多参数可能关键地阻碍统计收敛。Cai(2024)未能提供足够的收敛性统计信息,最小有效样本量(minESS)统计量对于Matrix 2被省略,而对于Matrix 1和4则刚刚超过"可接受"的阈值50,分别为52和54。这不仅是一个可重复性问题,而且阻碍了确定任何CAT-GTR分析是否在参数间收敛和混合或是否存在问题。
研究结论与意义
这项批判性分析表明,Cai(2024)的研究在设计、模型测试和报告方面存在根本性缺陷,使用CAT-GTR并没有有意义地解决蚂蚁系统发育问题,至少按照Cai(2024)进行和报告的方式是这样。
与Cai(2024)的主张相反,REA的结果实际上显得更加稳健,因为它们得到了Cai(2024)大多数分析的支持,即使在任意矩阵扰动造成的不确定条件下也是如此。关于系统偏差,位点异质性和组成异质性之间的区别是微妙但重要的,需要适当的建模选择。
谱系混合模型是有吸引力的且值得研究的话题,当负责任地使用和报告时,可以增加我们对进化的认识。但CAT-GTR不是万能药;它只是一个复杂的模型,在拟合度方面会胜过更简单的模型,需要很长时间才能有效采样,并且值得进一步的行为研究。
最重要的是,分析必须被证明是成功的,否则产生的估计值不能依赖。这项研究强调了在系统发育研究中严格的方法学标准和完整的结果报告的重要性,对于进化生物学领域的研究具有重要的方法论指导意义。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号