基于模拟监督机器学习的基因组数据人口统计学参数推断方法比较与优化研究

【字体: 时间:2025年06月07日 来源:Heredity 3.1

编辑推荐:

  本研究针对大规模基因组数据中人口统计学参数推断的挑战,开发了基于模拟的监督机器学习(ML)框架,系统比较了多层感知器(MLP)、随机森林(RF)和XGBoost(XGB)在隔离迁移模型(IM)和二次接触模型(SC)中的性能。结果表明MLP在参数预测准确性和统计量整合能力上显著优于传统ABC算法和另两种ML方法,并通过SHAP值解析了关键统计量的贡献机制,为复杂人口历史重建提供了高效可解释的新工具。

  

在探索种群演化历史的过程中,基因组数据已成为解码人口动态的黄金钥匙。然而随着高通量测序技术的普及,如何从海量遗传变异中准确提取人口统计学参数,成为困扰研究者的难题。传统方法如近似贝叶斯计算(ABC)虽能处理复杂模型,却受限于统计量选择和计算效率。更棘手的是,现有方法往往无法充分利用基因组中蕴含的连锁不平衡(LD)、单倍型共享等多维信息,导致对种群分化时间、迁移率等关键参数的推断存在偏差。

法国国家自然历史博物馆等机构的研究团队在《Heredity》发表创新研究,首次系统评估了三种监督机器学习(ML)方法在人口统计学推断中的表现。研究通过msprime软件模拟生成20,000组基因组数据,涵盖标准隔离迁移模型(IM)和种群规模动态变化的二次接触模型(SC),采集11类3,024个统计量构建特征集。采用多层感知器(MLP)、随机森林(RF)和XGBoost(XGB)三类算法,通过超参数优化和验证集调参,最终在测试集上比较其预测种群分裂时间(Split_time)、迁移率(Migration_rate)、祖先有效种群大小(N_ancestral)等参数的准确性。

关键技术包括:1)基于msprime的基因组模拟系统;2)涵盖位点频谱(SFS)、连锁不平衡(LD)、身份血统片段(IBS)等11类统计量的特征工程;3)采用SHAP值和排列特征重要性(PFI)的模型可解释性分析;4)与传统ABC算法的系统对比。

模型性能比较
在IM模型中,MLP展现出全面优势:对分裂时间的平均绝对误差(MAE)仅385代,较RF和XGB降低21%-36%;对迁移率(0-10-3
/代)的预测误差为7.52×10-5
/代,精度提升6%-17%。值得注意的是,MLP在极端参数区间(如近期分裂或高迁移率)的预测稳定性显著优于另两种方法,后者呈现系统性低估倾向。

复杂模型验证
扩展到包含指数增长率的SC模型后,MLP保持领先:对分裂时间的NMAE(标准化平均绝对误差)为0.108,较RF/XGB降低21%-26%;对迁移持续时间的预测误差降低10%。XGB在种群增长率(Growth_rate)预测中表现最佳(RMSE=6.06×10-4
),反映不同算法对动态参数的适应性差异。

统计量贡献解析
通过排列特征重要性(PFI)发现:RF/XGB高度依赖单一统计量类别(如SFS对分裂时间贡献达70%),而MLP均衡整合多类信息(JSFS贡献63%且联合使用AFIBS等)。SHAP分析进一步揭示:三重态频率(SFS_3_all-mu)对分裂时间预测具有双向调节作用,其高值通常推后时间估计,但特定组合下会产生抑制效应。

与传统方法对比
在相同数据集上,三种ML方法均显著超越ABC算法。对于当前有效种群大小的推断,MLP的MAE(375个体)比最优ABC神经网络方法降低42%,且计算效率提升3-5倍。这种优势在参数空间边缘区域(如极小祖先种群)尤为明显。

该研究确立了监督机器学习在人口遗传学中的方法论突破:MLP通过深度整合多维统计量,突破了传统方法的信息利用瓶颈;而SHAP等可解释AI技术为理解统计量与参数的复杂映射关系提供了新视角。特别在人类演化、濒危物种保护等场景中,该方法能更精准解析种群瓶颈、迁徙事件的时间尺度。未来通过纳入选择压力、突变率异质性等扩展模型,有望建立更接近真实世界的推断框架。研究开源的代码库为领域内方法学比较设立了新基准,推动基因组数据挖掘进入"全信息利用"时代。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号