
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于概率图模型的非同义变异选择系数估算方法MisFit及其在人类群体基因组数据中的应用
【字体: 大 中 小 】 时间:2025年05月21日 来源:Nature Communications 14.7
编辑推荐:
本研究针对错义变异(missense variants)致病性预测的局限性,开发了概率图模型MisFit,通过整合分子效应(d)和群体选择系数(s)的联合建模,利用236,017例欧洲 ancestry人群数据,实现了对变异 fitness效应的定量评估。该方法在跨人群等位基因频率预测、神经发育障碍(NDD)新生变异优先排序等方面显著优于现有工具,为疾病风险基因发现和临床遗传诊断提供了新视角。
在人类遗传学研究中,准确预测错义变异(missense variants)的功能影响是发现疾病风险基因和临床诊断的关键。这类变异通过单个氨基酸改变影响蛋白质功能,是发育障碍、癌症等疾病的主要遗传因素。然而,现有预测方法如CADD、REVEL等主要基于已知致病变异标签进行监督学习,存在两大局限:一是预测结果混杂了基因-疾病关联的未知信息;二是仅定性判断"致病性",无法量化变异对人类适应度(fitness)的实际影响。
哥伦比亚大学研究团队在《Nature Communications》发表研究,开发了创新性概率图模型MisFit。该方法突破传统框架,通过联合建模分子水平损伤程度(d)和群体水平选择系数(s),利用236,017例欧洲血统人群基因组数据,首次实现了对错义变异适应度效应的精准量化。研究证实,s值能有效预测跨人群等位基因频率分布,与神经发育障碍新生变异比例高度吻合,在疾病变异优先排序中显著优于现有工具。
关键技术包括:1) 基于欧洲人群历史有效群体大小的Wright-Fisher模拟;2) 泊松-逆高斯(PIG)分布建模等位基因计数;3) 整合ESM-2蛋白质语言模型嵌入特征;4) 4073个受约束基因的变分推理训练;5) 自闭症谱系障碍(16,876例)和神经发育疾病队列的验证分析。
【使用Poisson-Inverse-Gaussian分布建模人类群体等位基因计数】
通过模拟欧洲人群扩张历史,发现强选择变异(s>0.01)的等位基因分布接近泊松分布,而温和选择变异更符合负二项分布。创新的PIG模型在所有选择强度范围内均优于传统分布假设,为后续选择系数估算奠定基础。
【MisFit模型结构与训练过程】
模型创新性地将ESM-2蛋白质嵌入特征通过Transformer块转化为分子损伤d,再与基因特异性选择强度sgene耦合。两阶段训练策略:第一阶段利用哺乳动物同源序列和群体数据优化d的估计;第二阶段通过变分推断获得后验选择系数。关键突破在于将s建模为d的sigmoid函数,避免直接估计单个变异的s。
【基因水平约束的比较】
发现sgene与gnomAD错义z评分显著相关但提供不同信息:KRAS等获得功能(gain-of-function)基因在错义变异上呈现异常高选择(sgene=0.37),而PTV选择系数仅为0.0002,揭示不同遗传模式基因的选择压力差异。
【跨人群超罕见变异预测】
在28,872例非洲血统人群验证中,MisFit_S预测的强有害变异(s>0.01)零计数比例达82.3%,是基线模型的1.8倍,证明其跨人群适用性。消融实验显示蛋白质语境特征对预测精度贡献率达47%。
【选择系数与新生突变比例的关系】
自闭症队列分析显示,当MisFit_S>0.01时,病例组新生变异比例与理论预期高度吻合(R2=0.91),而对照组因家系选择偏差偏离预期,证实s估算的生物学合理性。
【神经发育障碍新生变异的优先排序】
在NDD数据分析中,MisFit_S排名前10%的变异富集比达6.7倍,显著优于AlphaMissense(5.2倍)和gMVP(4.8倍)。精确召回曲线下面积(AUPRC)提高21%,为基因发现研究提供更可靠权重。
【深度突变扫描数据验证】
在26个基因44,100个变异的DMS数据中,MisFit_D与实验测量值的Spearman相关性(ρ=0.61)与ESM相当,但跨基因性能更稳定(灵敏度标准差0.08 vs 监督方法的0.15)。
该研究通过创新性地解耦变异分子效应与基因背景,建立了首个能定量评估错义变异选择系数的计算框架。其重要意义在于:1) 突破传统致病性预测的定性局限,实现适应度效应的连续量化;2) 揭示不同遗传模式基因的选择模式差异,如获得功能基因的特殊约束特征;3) 为群体遗传学和医学遗传学研究提供新工具,特别在神经发育障碍等强选择表型中展现突出价值。随着非欧人群基因组数据的增加,该方法有望进一步改善中等选择变异(s<0.001)的估算精度,推动精准医学发展。
生物通微信公众号
知名企业招聘