
-
生物通官微
陪你抓住生命科技
跳动的脉搏
Recomb-Mix:基于重组混合模型的高效精准局部祖先推断新方法
【字体: 大 中 小 】 时间:2025年07月16日 来源:Bioinformatics 4.4
编辑推荐:
研究人员针对当前局部祖先推断(LAI)方法在相似参考群体、多源混合及深度混合事件中准确性不足的问题,开发了Recomb-Mix算法。该方法创新性地整合Li-Stephens模型位点特征与图折叠技术,在模拟和真实数据中展现出优于RFMix等工具的精度与效率,为混合群体遗传学研究提供了新工具。
随着全球生物样本库规模的扩大,混合群体遗传结构的精细解析成为可能,但传统局部祖先推断(LAI)方法面临三大挑战:参考群体遗传相似性高(如欧亚大陆内部群体)、混合来源复杂(如七重混合事件)、以及混合事件年代久远(>150代)。这些问题导致现有工具在精度和效率上存在显著局限,阻碍了混合群体中疾病关联信号定位和选择压力分析等研究。
美国中佛罗里达大学计算机科学系与德克萨斯大学休斯顿生物医学信息学院的研究团队在《Bioinformatics》发表研究,提出Recomb-Mix算法。该方法通过重构Li-Stephens模型的位点特征,首创"离散祖先信息标记(dAIMs)"概念,结合动态规划优化路径搜索,在保持计算效率的同时显著提升推断精度。研究利用SLiM模拟器构建三向/七向混合数据集(涵盖1000基因组计划和HGDP样本),通过r2值和准确率评估显示:在1000人参考面板中达到99.1%准确率,较RFMix提升6.3%;对仅有20个样本的小参考面板仍保持62.9%的实用精度。
关键技术包括:1) 基于重组率的模板转换惩罚函数Rj,j+1设计;2) 群体图折叠技术压缩节点规模至O(np);3) 跨群体遗传距离加权方案。实验使用Chromosome 18数据,设置15-200代混合时间梯度,并加入0.02%基因分型误差模拟真实场景。
研究结果揭示:
跨大陆混合分析:在非洲-欧洲-亚洲三向混合中,Recomb-Mix的r2值达0.9989(1000人面板),较次优方法G-Nomix提高1.7%。图1展示的样本单倍型推断显示,其能准确识别<5cM的短片段祖先成分。

多源混合挑战:七向混合测试中,虽然所有方法性能下降,但Recomb-Mix仍保持0.8923的r2值(图3B),证明dAIMs能有效区分高度相似的海洋性与亚洲成分。
计算效率突破:处理三向混合数据仅需2.44GB内存,较SALAI-Net快3.1倍。压缩存储技术将参考面板体积减少98%(500人面板仅1.4MB)。
该研究的创新性体现在:首次实现"零群体内重组惩罚"的简化模型,通过理论证明这种设置可放大祖先信号。在1000基因组计划数据应用中(图4),成功解析出加勒比群体(ASW)17.3%的非裔成分,与已知历史吻合。讨论部分指出,未来通过整合等位基因频率信息可进一步提升对古代混合成分(如Yamnaya DNA)的识别能力,为人类迁徙史研究提供新视角。

生物通微信公众号
知名企业招聘