多物种 coalescent 模型下简约法不一致性研究:基于期望分支长度计算的新方法揭示物种树推断的局限性

【字体: 时间:2025年09月29日 来源:Theoretical Population Biology 1.3

编辑推荐:

  这篇综述深入探讨了多物种 coalescent(MSC)模型下串联简约法的统计(不)一致性。作者创新性地提出了一种计算基因树期望分支长度的组合技术,揭示了在5+分类单元(taxa)的有根树和6+分类单元的无根树中,串联简约法存在统计不一致区域。研究强调了在ILS(不完全谱系排序)影响下,传统串联分析方法(如parsimony)的局限性,为物种树推断方法的选择提供了重要理论依据。

  
亮点
虽然已知简约法由于高水平的同塑性(homoplasy)在某些进化模型下可能存在统计不一致性,但多物种 coalescent(MSC)下简约法的一致性研究较少。先前研究表明,在无限位点突变模型下,串联简约法(应用于串联比对)在 rooted 4-taxa 情况下具有一致性;另一方面,其他工作也确立了其在 unrooted 6-taxa 情况下的不一致性。这些看似矛盾的结果表明,串联简约法可能在超过5个分类单元(taxa)的树、所有无根树或两者的某些组合中失去一致性。在此,我们提出了一种计算MSC下基因树期望内部分支长度的技术。该技术使我们能够确定物种树参数空间中,串联简约法在不同分类单元数量、有根或无根树情况下失效的区域。我们使用新方法证明,虽然简约法在 unrooted 5-taxa 情况下成功,但在 rooted 5+-taxa 和 unrooted 6+-taxa 情况下存在统计不一致区域。因此,我们的结果表明,简约法在MSC下通常不可靠。
引言
系统发育学的主要目标之一是描述生物体之间的关系。我们假设n个物种或分类单元(taxa)之间的进化关系可以由一个有根、二元、超度量的物种树S = (T?, x)描述,其中T?表示物种树的有根二元拓扑结构,x给出S的分支长度。目标是能够利用来自末端物种的数据推断物种树S或其某些组成部分,如拓扑结构T?
用于推断物种树的最常见数据来自DNA序列。DNA序列可从基因组中的每个基因(或位点)获得。基于 coalescent 的模型给出了代表采样个体间给定位点进化历史的基因树G的概率分布(Kingman, 1982; Hudson, 1990)。当采样个体来自不同物种时,位点上的基因树拓扑G在给定物种树S的条件下是随机条件性的。然后,该位点的序列数据在给定G的条件下是随机条件性的,取决于其上发生的任何突变事件。众所周知,基因树可能由于多种生物学原因(如基因渗入或水平基因转移,例如Maddison, 1997; Edwards, 2009)与物种树不一致(即具有不一致的内部分支)。然而, arguably 研究最充分的基因树不一致原因是不完全谱系排序(ILS),其中种群中的谱系直到进入更远的祖先种群才发生 coalesce。在我们的分析中,我们将ILS视为基因树不一致的唯一原因, owing to ILS在标准多物种 coalescent(MSC)模型下的数学模型简单性(Pamilo and Nei, 1988; Rannala and Yang, 2003; Rannala et al., 2020)。沿着染色体的重组事件允许相邻位点呈现不同的基因树拓扑,所有这些都受到相同的生物学过程影响。因此,我们假设任何给定位点的基因树G具有由物种树S的MSC给出的分布。该分布描述了从大量位点中均匀随机选取的一个位点的基因树的概率分布。
ILS在物种树的内部分支长度较短时尤其常见。在物种树参数空间的某些区域(称为异常区,或简称AZ),一个不一致的有根基因树拓扑可能比与物种树拓扑匹配的拓扑更可能发生(Degnan and Rosenberg, 2006);类似的结果也适用于无根基因树拓扑(Degnan, 2013)。进一步的工作(Rosenberg, 2013)表明,AZ是物种树连续短分支上ILS的结果。因此,即使在我们可以直接推断基因树拓扑的理想世界中—— essentially 忽略序列在基因树上进化的随机性和推断基因树所涉及的误差——试图通过简单地返回许多独立位点上最常见的基因树拓扑来推断物种树拓扑的“民主投票”方法在某些参数空间区域将是统计不一致的(Degnan and Rosenberg, 2009),尽管使用基因树拓扑频率的更复杂方法可以提供物种树拓扑的统计一致估计量(Allman et al., 2011, 2018)。MSC下最可能的基因树拓扑通常不是物种树拓扑这一事实,似乎注定了所谓的串联方法(concatenation methods),这些方法将来自多个位点的数据组合成一个比对,并 essentially 假设所有位点都沿着相同的基因树进化。这些串联比对可以使用一系列方法(例如简约法、最大似然法、邻接法[NJ])进行分析,以返回估计的树或拓扑。然而,此类串联方法的统计一致性区域可能与AZ不同。例如,Kubatko and Degnan (2007)的模拟表明,在MSC下,对于4个分类单元,串联最大似然法(ML)在AZ内部可能是一致的,而在其外部是不一致的。Mendes and Hahn (2018)更详尽地展示了这一点,他们在参数空间中采样了远更多的点。
也许令人惊讶的是,Liu and Edwards (2009)和Mendes and Hahn (2018)发现,假设无限位点突变模型和MSC模型,串联简约法在 rooted 4-taxa 情况下在整个参数空间中是统计一致的。这些发现与Felsenstein (1978)中描述的众所周知的结果形成对比,后者发现了简约法统计不一致的参数空间区域(有时称为Felsenstein区)。这两组结果并不冲突,因为Felsenstein区的不一致性是由同塑性(homoplasy)(位点上的多次替换)引起的相似性造成的,这种现象在无限位点模型中不会发生。还应注意的是,Felsenstein (1978)中的分析没有纳入基因树不一致性,而Liu and Edwards (2009)和Mendes and Hahn (2018)的结果则纳入了。
在这项工作中,我们专注于串联简约法和类似的串联方法(“串联计数方法”),它们都将一个串联比对A作为输入,并为每个候选拓扑T和位点模式V ∈ A关联一个“成本”c(T∣V)。这些方法然后试图通过返回在整个串联比对中总成本最小的候选拓扑T来推断物种树拓扑。这些方法类似于串联ML背后的思想,不同之处在于串联ML试图最小化候选树(包括分支长度)的总负对数似然,而不仅仅是候选拓扑(不编码任何分支长度信息)的总成本。成本最小化的思想在各种使用一组(估计的)基因树G和每个G ∈ G的成本函数c(T∣G)的基因树方法中也很常见。例如,采用一个表示G的有根拓扑是否与T匹配的成本函数,就得到了“民主投票”方法;而采用一个返回T和G的无根拓扑之间共享四联体(quartets)数量的成本函数,则激发了ASTRAL(Mirarab et al., 2014)。其他成本函数的选择也已被研究,例如最小化深度 coalescence(MDC)标准(Maddison, 1997; Maddison and Knowles, 2006; Than and Rosenberg, 2011)。
与研究随着更多位点采样时基因树方法的统计一致性通常需要计算MSC下基因树拓扑的频率相同,研究串联计数方法的统计一致性涉及计算MSC下基因树分支的期望长度。我们首先提出一种新颖的组合技术来计算这些期望长度,并证明该技术正确地恢复了4-taxa情况下的已知结果。然后,我们将此技术应用于进一步理解对于5个或更多分类单元(“5+ taxa”)的情况,串联简约法在有根和无根情况下的成功与失败。虽然Roch and Steel (2015)已经证明了在一般r状态突变模型下(即使同塑性可忽略不计),串联简约法对于 unrooted 6-taxa 情况是不一致的,但他们的结果并未表征简约法失效的参数空间精确区域;相反,他们的模型假设内部分支中的 coalescence 概率足够小,证明了在计算位点模式概率时使用Ewens抽样公式(Ewens, 1972)的合理性。此外,Bryant and Hahn (2020)认为,Roch and Steel (2015)的结果仅直接证明了在生物学上不现实的物种树分支长度下的不一致性。利用我们计算期望分支长度的方法,我们证明了对于先前未探索的 unrooted 5-taxa 情况,在MSC + 无限位点进化模型下,串联简约法是一致的。我们还表明,在相同的建模假设下,串联简约法对于 rooted 5+-taxa 情况和 unrooted 6+-taxa 情况总是存在一个不一致区域,并且发现这个异常区域是非平凡的,包括许多生物学上现实的物种树。最后,我们讨论了我们的结果对准确推断物种树的影响。
章节摘要
定义
让Tn表示所有在n个分类单元上的有根、二元、带标签的树拓扑的集合,末端由标签集[n] = {1,2,…,n}标记。为清晰起见,在讨论具体示例时,我们经常使用大写字母{A, B, C, …}作为标签集来代替[n]。对于每个有根拓扑T ∈ Tn,我们让T?表示其无根类似物,并定义T?n为所有此类无根n-taxa拓扑的集合。
我们将一个具有n个分类单元的有根、二元、超度量物种树视为一对S = (T?, x)。
MSC下的期望分支长度
在第2节中,我们看到确立串联计数方法的统计(不)一致性需要计算基因树的期望分支长度。在本节中,我们演示了如何利用关于MSC下基因树期望高度的现有工作,特别是Efromovich and Salter Kubatko (2008)的工作,来计算MSC下基因树的期望分支长度。利用采样 tip 的MRCA(最近共同祖先)的期望高度(通常,通过采样
无根5-taxa情况的简约法
无根5-taxa拓扑只有一种可能的形状——所有拓扑形式均为((ab)(cd)e)(对于A, B, C, D, E的某种排列a,b,c,d,e),即两对姐妹分类单元a,b和c,d与分类单元e分开(图6a)。因此,我们将仅检查此形状的一个带标签代表,假设物种树具有真实的无根拓扑T?? = ((AB)(CD)E)。分析串联简约法一致性的最直接方法(并且是一种可以推广到所有
讨论
在Kubatko and Degnan (2007)发表之前,串联数据集的最大似然(ML)分析主导了系统发育学。虽然统计不一致的估计量可能仍然比一致的估计量更受青睐,特别是在主要关注模型误差和/或数据有限的情况下,但Kubatko and Degnan (2007)证明当ILS高时串联ML是不一致的,这一发现 nonetheless 引发了大量对基因树
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号