《Nature Communications》:Proteome-wide prediction of the functional impact of missense variants with ProteoCast
编辑推荐:
本期推荐:针对全蛋白质组水平上错义变异功能影响预测的挑战,研究人员开发了可扩展且可解释的计算方法ProteoCast。该方法仅利用进化信息,便能对果蝇(Drosophila melanogaster)全蛋白质组(22,000种异构体,3亿个突变)进行准确预测,并在近40万个自然和实验变异中验证,正确分类了85%的已知致死突变为功能影响型。ProteoCast指导的基因组编辑实验证实了其预测,并成功识别了重要的蛋白质修饰位点和结合基序。该方法为研究任意生物体的基因功能和突变提供了公开资源和可部署流程,对功能基因组学和人类疾病研究具有广泛应用前景。
理解基因突变如何影响蛋白质功能,进而决定生物体的表型,是现代遗传学和生物医学研究的核心问题之一。单核苷酸变异是许多遗传疾病的根源,而CRISPR等基因组编辑技术的突破,使得在基因组层面精确修正这些变异成为治疗疾病的新希望。然而,面对一个蛋白质组中可能存在的数以亿计的错义突变,如何从中筛选出那些真正会破坏蛋白质功能、进而可能影响生物体健康的“关键”突变,是一个巨大的挑战。传统的实验方法通量有限,而现有的计算预测工具,或依赖有限的进化信息,或模型复杂、计算成本高昂,或在全蛋白质组尺度上应用困难。
为此,研究人员在《Nature Communications》上发表了题为“Proteome-wide prediction of the functional impact of missense variants with ProteoCast”的研究。他们开发了一种名为ProteoCast的可扩展、可解释的计算框架,其核心理念是:仅凭蛋白质序列的进化信息,就足以在全蛋白质组范围内准确预测错义变异的功能影响。为了验证这一理念,研究团队选择了经典模式生物黑腹果蝇(Drosophila melanogaster)作为测试平台。果蝇不仅拥有超过一个世纪积累的丰富遗传和表型数据,其基因与人类疾病基因有高达75%的保守性,是研究基因功能与人类健康的绝佳模型。
研究人员通过整合并自动化多个关键计算步骤,构建了ProteoCast工作流。首先,为每个果蝇蛋白质异构体序列,利用ColabFold的MMseqs2流程,针对UniRef和环境序列数据库生成多样化的多序列比对。接着,使用基于进化模型的GEMME方法,为每个蛋白质计算其完整的单位点突变“景观图”,即所有可能氨基酸替换的功能影响预测分数。然后,ProteoCast会评估预测的可靠性,并通过对每个蛋白质的原始分数分布拟合高斯混合模型,将变异自动分类为“中性”、“轻微”或“有影响”。此外,该方法还将预测的突变敏感性映射到AlphaFold DB提供的三维结构模型上,并通过分段策略识别非结构化区域中潜在的结合与调控位点。为了全面验证,研究人员构建了一个包含超过38.6万个果蝇单点突变的基准数据集,涵盖了自然种群变异、实验室诱导突变以及已知功能缺失或致死突变。
研究结果
充足的进化信息支持大多数变异预测
ProteoCast为果蝇全蛋白质组(22,169个独特蛋白质异构体)生成了完整的突变景观图,覆盖了约2.93亿个错义突变。通过评估输入多序列比对的质量,该方法为预测结果提供了置信度指标。分析显示,绝大多数果蝇蛋白质拥有充足且高质量的进化信息,不可靠的预测(基于全局或局部置信度指标)涉及不到10%的残基,确保了预测的高分辨率和可靠性。
预测效应与生物体适应度高度相关
为了评估ProteoCast预测的生物学相关性,研究团队利用果蝇遗传参考面板、果蝇时空进化数据集以及FlyBase中记录的致死和亚效等位基因突变,构建了定制化基准。结果显示,ProteoCast能够很好地区分有害突变和自然变异。例如,在Yorkie蛋白中,已知的致死突变P65L和Y259N被预测为影响最强的变异之一,而自然种群中出现的变异N169T和Q177P则被预测为中性。系统性分析表明,ProteoCast正确地将85%的已知致死突变和73%的亚效等位基因分类为“有影响”或“轻微”,同时将88%的DGRP变异和82%的DEST2变异分类为“中性”。这种适应性分类策略优于固定阈值,在识别有害突变和判定自然变异为中性之间取得了更好平衡。
ProteoCast有效指导基因组编辑策略
研究进一步通过CRISPR基因组编辑实验验证了ProteoCast的预测能力。以烟酸磷酸核糖基转移酶(Naprt)基因为例,研究人员根据ProteoCast的预测,选择了两个预测为“最有影响”的突变(G497P, K532G)、一个位于潜在二聚体界面的敏感残基突变(E147V)以及两个预测为“耐受”突变的残基(A262F, I618P)进行实验。结果与预测完全一致:引入G497P、K532G或E147V突变均无法获得纯合子个体,表明这些突变是致死性的;而引入A262F或I618P突变则产生了可存活的纯合子。这与传统工具SIFT的预测形成对比,后者对A262F给出了边界性的有害评分,凸显了ProteoCast更高的分辨率和准确性。
发现非结构化区域中的互作与调控位点
ProteoCast将预测的突变敏感性映射到AlphaFold预测的三维结构上。有趣的是,即使在AlphaFold难以高置信度建模的非结构化区域(pLDDT < 70),ProteoCast也常能检测到显著的进化约束信号。通过分段分析策略,ProteoCast能够自动识别出这些区域内突变敏感性显著高于背景的片段。对果蝇全蛋白质组的分析验证了这一策略的有效性:63%的已知翻译后修饰位点和61%的已知短线性基序完全位于ProteoCast识别出的高敏感性片段内。案例分析表明,在Yorkie蛋白的非结构化区域,ProteoCast识别出的高敏感性片段恰好富集了已知的磷酸化位点,并对应于其人类同源物YAP1的TEAD结合域。在Delta蛋白的非结构化C端,ProteoCast识别出的高敏感性片段与已知的Mindbomb1/Neuralized结合基序区域重合,并提示了可能参与氧化还原调控的半胱氨酸残基。
Toll通路蛋白的案例研究
通过对Toll信号通路中多个蛋白的分析,展示了ProteoCast在解析自然多态性、进化信息和蛋白功能之间关系的应用。例如,Toll膜受体中的自然变异绝大多数被预测为中性,反映了较强的纯化选择。而细胞内核苷酸结合寡聚化结构域样受体(NLR)蛋白Pellino,由于其高度结构化的特性,自然变异数量极少。这些分析有助于理解自然变异在特定蛋白或通路功能中的作用,为阐释全基因组关联研究的发现提供了补充信息。
与现有先进方法的比较
在独立的标准基准测试中,ProteoCast展现了与当前先进方法相媲美或更优的性能。在区分ClinVar数据库中致病与良性人类变异时,ProteoCast在保持高特异性(86.9%)的同时,达到了77.1%的召回率,与深度学习方法EVE相比,在预测覆盖率和不确定性处理上更具优势。在识别酵母蛋白质组非结构化区域功能位点以及CAID3数据集中的无序结合位点时,ProteoCast的无监督分割策略也显示出与有监督机器学习方法相当的检测能力。
结论与讨论
本研究开发的ProteoCast框架,成功证明仅利用进化信息即可实现准确、可扩展的全蛋白质组错义变异功能影响预测。通过对果蝇全蛋白质组的系统性应用和多重验证,研究取得了若干重要生物学见解:ProteoCast能够有效指导致死性基因编辑靶点的筛选;揭示了自然种群中存在相当比例受进化负选择的错义变异,为理解群体遗传学提供了新视角;并能以无监督方式发现非结构化区域中潜在的功能位点,为阐释无序蛋白质区域的功能提供了强大工具。
在方法学上,ProteoCast在GEMME等已有方法基础上进行了重要创新:整合了进化分数与蛋白结构特征;提供了校准的置信度指标和系统性的变异分级分类;特别是引入了基于连续突变敏感性信号的分割策略,用于识别非结构化区域的功能模块,这比传统的基于保守性的二元模型具有更高的表达能力和分辨率。
当然,该方法也存在一定局限,例如多序列比对边界的错误可能影响分类,但内置的置信度指标能有效标识此类问题。未来,整合蛋白质语言模型等互补方法,将ProteoCast资源扩展至其他模式生物和人类,以及更紧密地结合进化与结构数据,将是重要的发展方向。
总之,ProteoCast为科学共同体提供了一个公开、易用的资源和流程,不仅极大地促进了果蝇功能基因组学研究,其原理和框架对理解人类遗传变异、疾病机制以及指导精准医学干预也具有广泛的适用性和重要意义。