
-
生物通官微
陪你抓住生命科技
跳动的脉搏
多物种序列马尔可夫溯祖模型下家系变化等待距离的估计研究
【字体: 大 中 小 】 时间:2025年09月10日 来源:Systematic Biology 5.7
编辑推荐:
本研究针对基因组中连锁区域家系关系空间变异问题,通过扩展序列马尔可夫溯祖模型(SMC')至多物种溯祖框架(MS-SMC),建立了家系树和拓扑结构变化等待距离的分布模型。研究团队开发Python软件包ipcoal验证模型准确性,并构建似然框架用于物种树参数推断,为系统发育分析提供了新的理论工具。
基因组如同镶嵌着不同祖先来源片段的马赛克,这些片段被历史上的重组事件分隔。这种空间异质性使得多个基因组间的家系关系在不同基因组区域呈现变异。虽然单群体(溯祖模型)或多群体结构(多物种溯祖模型MSC)下非连锁基因组区域的家系变异已有较好描述,但连锁基因组区域家系关系的预期相似性仍缺乏系统表征。Patrick F. McKenzie和Deren A. R. Eaton在《Systematic Biology》发表的研究,通过建立多物种序列马尔可夫溯祖模型(MS-SMC),填补了这一理论空白。
研究团队首先将Deng等(2021)单群体恒定有效群体大小的解析解推广至多物种框架,允许分支特异性有效群体大小变化。通过构建包含物种树拓扑结构、分歧时间(世代单位)和各分支有效群体大小的参数化MSC模型,实现了对家系树变化等待距离分布的数学描述。研究创新性地将SMC'模型嵌入MSC框架,使得局部祖先推断与层次化人口统计模型得以关联。
关键技术方法包括:(1)开发Python软件包ipcoal实现MS-SMC计算;(2)基于msprime(v.1.1.1)进行随机溯祖模拟验证;(3)构建新型似然框架,利用祖先重组图(ARG)中树和拓扑结构变化的等待距离拟合物种树模型参数;(4)采用贝叶斯Metropolis-Hastings MCMC算法联合估计所有参数。
研究结果部分通过多个维度验证了理论模型的可靠性:
模型验证与比较
通过单群体、两群体和8-尖物种树三种情景的模拟验证,证明MS-SMC预测与随机溯祖模拟结果高度吻合。在有效群体大小(Ne)50K-500K范围内,模型准确预测了树变化(tree-change)和拓扑变化(topology-change)事件的等待距离分布。特别值得注意的是,群体结构通过限制最短溯祖时间,显著影响了家系长度L(G)和事件概率P的相互关系。
等待距离估计偏差
研究识别出SMC'近似和拓扑变化概率计算两个潜在偏差来源。通过增加每个谱系的基因组采样数量可有效降低误差,且多物种模型的误差幅度与单群体溯祖模型相当。这为后续方法开发提供了质量控制依据。
基于似然的框架
建立的似然框架成功从ARG中提取信息:仅使用拓扑变化等待距离数据即可准确估计Ne参数(200K/300K/400K)和分歧时间(1M代)。与仅使用家系溯祖时间相比,联合分析等待距离和家系信息使参数估计更精确,证实两类数据包含正交互补信息。
模型联合应用
比较MS-SMC与标准MSC的似然面显示,家系间隔长度信息虽少于溯祖时间信息,但二者的组合能改善参数空间优化。通过将MSC对数似然均匀缩小1000倍实现权重平衡,获得的联合似然面在真实参数值附近呈现更集中的峰值。
研究结论部分强调,MS-SMC模型通过数学解析物种树参数对连锁家系变异空间模式的影响,建立了从基因组数据提取历史信息的新范式。与仅分析非连锁家系频率的传统方法相比,该方法具有三重创新价值:
(1)理论层面:首次量化物种树障碍对家系空间自相关的影响,为理解"concatalescence"(串联偏差)提供量化工具;
(2)方法层面:开发的似然框架可直接从ARG间隔长度推断物种树参数,避免了复杂的家系重建;
(3)应用层面:为ARG推断工具(如ARGweaver-D)提供新的验证标准,并启发了绕过ARG重建的直接物种树推断方法开发。
这项研究将重组事件从误差来源转化为信息载体,标志着系统发育学向"空间感知"分析范式的重要转变。未来可进一步拓展至含基因流的网络模型,为区分不完全谱系分选(ILS)与渐渗提供更强大的分析框架。
生物通微信公众号
知名企业招聘