结构化种群中位点频率谱(SFS)的精确计算:马尔可夫溯祖理论框架下的算法实现与应用

【字体: 时间:2025年06月18日 来源:Theoretical Population Biology 1.2

编辑推荐:

  本研究针对结构化种群中位点频率谱(SFS)计算难题,开发了基于马尔可夫溯祖理论的线性系统算法,成功实现n-岛对称模型下k=26单倍体的精确计算,为群体遗传学参数推断提供新工具(SISiFS软件),突破传统方法计算瓶颈。

  

群体遗传学领域长期面临结构化种群遗传变异分析的挑战。传统位点频率谱(SFS)计算在随机交配群体中已有成熟理论,但迁移和种群结构导致状态空间指数级增长,使得精确计算成为难题。尤其当需要分析多群体模型或大样本量(k>10)时,现有方法在计算效率和精度上均存在显著局限。

法国图卢兹联邦大学等机构的研究团队在《Theoretical Population Biology》发表研究,通过创新性地构建马尔可夫状态空间和稀疏矩阵算法,开发出能精确计算结构化种群预期SFS的通用框架。该工作首次实现n-岛对称模型下26个单倍体样本的快速计算,相比传统方法状态空间缩小260倍,为复杂种群结构的遗传参数推断奠定基础。

关键技术包括:1) 构建跟踪谱系迁移历史的状态空间;2) 利用对称性压缩状态空间的sM算法;3) 基于稀疏矩阵的迭代线性系统求解器;4) 专为n-岛模型优化的SISiFS软件实现。

【The structured coalescent with ancestry tracking】
通过扩展经典结构化溯祖模型,建立同时跟踪谱系位置和祖先关系的状态空间。以(0,2,1,0)表示4个群体中3个样本的分布为例,创新性地引入"祖先计数"维度,有效捕捉突变事件的时空分布特征。

【Computing the expected SFS】
将SFS计算转化为线性代数问题,提出基于曼哈顿距离和切比雪夫距离的迭代算法X。该方案利用状态排序产生的矩阵稀疏性,使26单倍体样本的计算成为可能,相比Kern和Hey的双群体方法显著提升计算效率。

【Model specialization: symmetrical n-island】
针对n-岛模型的对称性开发状态压缩算法,通过等价类划分将状态空间从O(nk
)降至多项式级别。以2岛模型为例,样本量k=10时状态数从1024降至66,实现计算复杂度的本质突破。

【Discussion and future work】
该研究建立的SFS计算框架为群体历史推断开辟新途径:1) 首次实现大样本结构化种群的精确分析;2) SISiFS软件支持θ、FST
等参数的高效估计;3) 方法可扩展至非对称迁移和非平衡模型。作者指出,未来整合联合SFS计算和选择模型将是重要方向。

这项工作的核心突破在于将理论数学工具创新应用于群体遗传学难题,通过算法优化克服了困扰领域多年的"维度灾难"问题。其提出的状态空间压缩策略和稀疏矩阵计算方法,不仅为n-岛模型提供解决方案,更为其他复杂种群结构的遗传分析建立了可借鉴的方法学框架。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号