
-
生物通官微
陪你抓住生命科技
跳动的脉搏
PRESCOTT模型:整合群体特异性等位基因频率与蛋白质结构信息精准预测错义突变效应
【字体: 大 中 小 】 时间:2025年05月07日 来源:Genome Biology 10.1
编辑推荐:
研究人员开发出PRESCOTT模型,通过整合蛋白质序列、结构模型(AlphaFold)和群体特异性等位基因频率(gnomAD),解决了错义突变功能影响预测的难题。该模型在ClinVar变异分类、ACMG数据集和人类蛋白质数据集(>1800种蛋白)中表现优异,其在线服务器可提供19,000种人类蛋白质的突变效应预测,为基因组医学提供透明化工具。
在基因组学领域,准确预测错义突变的功能影响是破解遗传疾病机制的关键挑战。尽管现有方法如GEMME利用进化保守性分析突变效应,但忽视了蛋白质结构信息和人类群体遗传特征。更棘手的是,99%的错义突变属于罕见变异(MAF<0.5%),而当前实验方法如深度突变扫描(DMS)成本高昂且难以规模化。这种困境催生了法国索邦大学Alessandra Carbone团队开发的PRESCOTT模型,其研究成果发表于《Genome Biology》。
研究团队创新性地融合三个生物学尺度:进化尺度(序列保守性)、分子尺度(结构特征)和群体尺度(gnomAD频率)。核心技术包括:1)基于AlphaFold结构模型提取残基空间密度(CV)和理化属性(PC);2)改进的进化保守性算法iGEMME;3)群体特异性等位基因频率筛选框架。通过分析807,162个体的gnomAD v4.0数据,建立频率阈值(Fc=0.0001)优化罕见变异分类。
研究结果揭示:
ESCOTT模型构建
通过整合TJET进化保守性、CV结构核心参数和PC界面特性,建立MaxScore评估体系。在32个人类蛋白DMS实验中,ESCOTT与AlphaMissense并列第一(平均Spearman=0.46),显著优于EVE(0.419)和ESM1b(0.405)。
敏感区域识别
以Spastin蛋白为例,ESCOTT成功标记MIT结构域(120-195)、ATPase结构域(343-506)等关键区域,与UniProt注释高度一致。平均位置向量分析显示,ESCOTT对敏感区域识别准确率达0.573,超越AlphaMissense(0.522)。
群体频率整合
PRESCOTT在1,883个人类蛋白测试中,对7,954个致病突变和9,276个良性突变的分类AUC达0.95。典型案例MLH1基因中,K618E(ClinVar争议变异)被重分类为良性(PRESCOTT=0.27),而L607H(ClinVar可能良性)被判定为致病(0.59)。
特殊场景应用
在芬兰疾病遗传(FDH)分析中,ESCOTT正确识别21/22个致病突变,而AlphaMissense误判5例。对增益功能突变(GOF),ESCOTT在128个自炎症相关变异中准确率72%,显著高于AlphaMissense(42%)。
这项研究的突破性在于:首次实现进化保守性、结构约束与群体遗传学的多尺度整合,其在线服务器(PRESCOTT Online)提供19,295种人类蛋白质的预计算分析。值得注意的是,对于特殊遗传背景(如芬兰人群)和GOF突变,建议优先采用ESCOTT原始分数而非PRESCOTT调整值。该模型为临床VUS解读提供了可解释性强的新工具,其结构敏感区域预测功能还将助力药物靶点发现。未来通过纳入蛋白互作网络(如MuLAN)和灵长类频率数据,有望进一步提升预测精度。
生物通微信公众号
知名企业招聘