
-
生物通官微
陪你抓住生命科技
跳动的脉搏
深度学习结合单点突变深度扫描数据提升蛋白质结构解析精度
【字体: 大 中 小 】 时间:2025年07月27日 来源:Nature Communications 14.7
编辑推荐:
本研究针对AlphaFold2在预测动态蛋白、突变效应及孤儿蛋白等复杂体系时的局限性,创新性地开发了DMS-Fold算法。该研究通过整合深度突变扫描(DMS)数据中的残基埋藏信息,显著提升了蛋白质结构预测精度,在CASP14/CAMEO测试集中88%的靶标预测效果优于AlphaFold2,平均TM-Score提高0.08。这项发表于《Nature Communications》的工作为融合实验数据与深度学习提供了新范式,对解决目前蛋白质结构预测的瓶颈问题具有重要意义。
蛋白质结构预测领域近年来因AlphaFold2的出现发生了革命性变革,然而对于动态构象、突变效应等复杂场景的预测仍存在明显局限。特别是当蛋白质缺乏同源序列信息时,单纯依赖进化约束的预测方法往往表现不佳。这些瓶颈问题严重制约了结构生物学在药物设计、疾病机制研究等领域的应用潜力。
来自俄亥俄州立大学(Ohio State University)的Zachary C. Drake等研究人员在《Nature Communications》发表了一项突破性研究。他们巧妙地将深度突变扫描(DMS)获得的实验数据与深度学习相结合,开发出新型算法DMS-Fold。该研究证实,通过分析单点突变对蛋白质热力学稳定性(ΔΔG)的影响,可准确推断残基埋藏程度,进而指导神经网络更精确地构建三维结构。
研究团队主要运用了三大关键技术:1) 基于175个蛋白质的深度突变扫描大数据集,建立突变稳定性与残基埋藏度的定量关系;2) 开发残基埋藏分数(Burial Score)算法,将ΔΔG数据转化为结构约束;3) 在OpenFold框架中嵌入埋藏信息,构建可训练的DMS-Fold神经网络模型。所有预测均采用TM-Score进行严格评估,并通过25次随机种子实验确保结果可靠性。
提取DMS中的埋藏信息
研究人员发现,将疏水残基突变为带电/极性残基时,ΔΔG与残基埋藏度呈现最强相关性。通过整合原子深度(atomic depth)和邻近计数(neighbor count)两种埋藏度量指标,建立了加权平均的"埋藏程度"(burial extent)参数。这一发现为从DMS数据中提取结构信息奠定了理论基础。
DMS-Fold网络架构

预测性能验证
在710个CASP14/CAMEO测试蛋白上,DMS-Fold相比AlphaFold2展现出显著优势:89%的靶标预测更准确,平均TM-Score提升0.08。特别是在MSA信息有限(Neff=1)时,错误折叠(TM-Score<0.5)的预测数量从578个锐减至225个。图3展示了五个TM-Score提升>0.5的典型案例,其中DMS-Fold准确预测了AlphaFold2未能解析的β折叠等二级结构。
实验数据验证
使用真实DMS数据对175个蛋白质的预测结果更为惊人:85%的案例优于AlphaFold2,平均TM-Score提升达0.17。图4中,在Neff=1的极端条件下,DMS-Fold仅产生11个错误折叠预测,而AlphaFold2高达92个。这证实实验数据指导的结构预测具有显著优势。
残埋藏分数指导机制
以脑心肌炎病毒2A蛋白(PDB ID: 7BNY)为例的案例分析生动展示了埋藏分数的指导作用。AlphaFold2预测的松散α螺旋结构(接触序=3.6)未能正确埋藏疏水残基,而DMS-Fold则准确预测出含7个反平行β折叠的RNA结合结构域(接触序=16.0)。当人为将所有残基埋藏分数设为零时,DMS-Fold又回归到α螺旋为主的错误预测,充分证明算法确实"理解"了埋藏约束。
这项研究的重要意义在于:首次证明单点突变DMS数据可显著提升深度学习结构预测精度;开发出可解释性强的埋藏分数算法;为融合高通量实验数据与AI预测建立了新范式。DMS-Fold已开源发布,其技术路线也为解决蛋白质结构预测的其他瓶颈问题(如多构象体系、突变效应预测等)提供了重要参考。随着更多实验数据的积累,这种混合方法有望实现"近乎任何蛋白质体系"的精准预测,推动结构生物学研究进入新阶段。
生物通微信公众号
知名企业招聘