
-
生物通官微
陪你抓住生命科技
跳动的脉搏
复合似然法在物种水平系统发育基因组推断中的潜力与应用
【字体: 大 中 小 】 时间:2025年06月16日 来源:Evolutionary Journal of the Linnean Society
编辑推荐:
本研究针对多物种溯祖模型(MSC)下物种树推断的维度灾难问题,创新性地开发了基于复合似然(composite likelihood)的统计框架。研究人员通过建立MSC-JC模型及其扩展模型(MSC-JC+Γ和SNP模型),成功实现了对物种树拓扑结构、分歧时间等参数的高效估计。该方法突破性地解决了SNP数据无法通过基因树汇总方法分析的难题,并通过模拟验证了参数估计的无偏性和渐近正态性,为大规模系统发育研究提供了新的方法论工具。
在系统发育基因组学领域,物种水平系统发育关系的准确重建一直面临重大挑战。传统基于多物种溯祖模型(Multispecies Coalescent, MSC)的推断方法,由于需要同时处理基因树和物种树的高维参数空间,在计算上存在严重瓶颈。现有"汇总方法"(summary methods)先估计基因树再推导物种树,不仅受基因树估计误差影响,更无法处理日益普及的单核苷酸多态性(SNP)数据。这些限制促使研究者寻求新的统计框架来突破当前系统发育推断的技术壁垒。
美国俄亥俄州立大学Laura S. Kubatko团队在《Evolutionary Journal of the Linnean Society》发表的研究,开创性地将复合似然(composite likelihood)方法引入物种树推断领域。该方法通过分解物种树为四联体(quartet)子树,建立基于位点模式概率的复合似然函数,成功实现了对物种树拓扑结构和分歧时间参数的高效估计。研究证明该方法不仅适用于传统的多位点数据,还能直接分析SNP数据并处理位点间速率变异,为系统发育研究提供了全新的分析范式。
研究采用的核心技术包括:1)基于四联体的复合似然计算框架,将N物种系统发育问题转化为NC4个四联体子树的似然乘积;2)模拟退火算法进行物种树空间搜索,通过最近邻交换(NNI)和自适应冷却计划优化拓扑结构;3)离散伽马模型处理位点速率变异;4)条件概率调整方法处理SNP数据中缺失的恒定位点模式。所有模拟均使用PAUP*软件生成包含2个样本/物种的10个序列数据集,通过100次重复验证方法可靠性。
【复合似然物种树计算框架】
研究建立了基于"溯祖独立位点"(CIS)假设的复合似然模型。通过将15种JC69模型下的位点模式概率整合到四联体似然计算中,构建可比较不同树形的统一框架。如图1所示,五物种树被分解为5个四联体子树,每个子树的似然通过位点模式计数与理论概率的匹配度计算,最终复合似然为所有四联体似然的乘积。该方法创新性地解决了多物种情况下基因树积分不可行的难题。
【多样本处理与计算优化】
针对每个物种多个样本的情况,研究设计了高效的数据汇总策略。通过识别共享相同子树拓扑的四联体组合,将必要的四联体计算量从组合爆炸水平大幅降低。例如10个序列(2样本/物种×5物种)的16个可能四联体,经优化后仅需3次独立计算,显著提升了计算效率。
【速率变异模型验证】
通过引入离散伽马分布的MSC-JC+Γ模型,研究成功捕捉到位点间速率变异(α=0.5和1.5)。模拟显示,忽略速率变异会导致近根部分歧时间的显著偏差(图4),而正确指定模型时所有参数估计均保持无偏性,证实了模型扩展的必要性。
【SNP数据分析突破】
研究通过重新归一化位点模式概率,建立了首个可直接分析SNP数据的MSC框架。如图5-6所示,传统方法错误应用于SNP数据时会严重高估分歧时间,而专用SNP模型则能提供无偏估计。这一突破解决了SNP数据长期无法用于物种树推断的困境。
【物种树拓扑估计】
模拟退火算法在β=0.005的冷却计划下,仅需平均19.68秒即可准确恢复五物种真实拓扑。该方法通过概率性接受次优拓扑避免局部最优,在10,000次迭代内实现全局搜索,证实了复合似然框架用于拓扑推断的可行性。
该研究建立的复合似然框架,从根本上改变了物种水平系统发育推断的方法学格局。其创新性体现在三个维度:方法论上,首次将复合似然的统计理论严格应用于MSC模型,保证了估计量的一致性和渐近正态性;技术层面,开发的四联体数据汇总策略和模拟退火算法,使大规模物种树推断首次具备计算可行性;应用范围上,突破性地覆盖了SNP数据和速率变异场景,极大扩展了方法适用性。这些进展为处理现代基因组学产生的大规模异质数据提供了关键工具,将推动系统发育研究进入新的发展阶段。正如作者指出,未来通过整合贝叶斯框架和似然比检验等统计工具,该方法有望发展成为系统发育基因组学的统一分析平台。
生物通微信公众号
知名企业招聘