
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于预训练蛋白质语言模型与生物空间卷积的蛋白结合位点精准预测新方法SpatConv
【字体: 大 中 小 】 时间:2025年07月10日 来源:Research 8.3
编辑推荐:
研究人员针对传统蛋白结合位点预测模型存在信息丢失和学习能力受限的问题,开发了融合预训练蛋白语言模型(PLM)与生物空间卷积(SpatConv)的创新框架。该模型通过连续密集编码局部空间环境,在蛋白-蛋白/肽段/金属离子(Zn2+/Mn2+)结合位点预测任务中全面超越现有方法,对预测结构和实验结构均保持稳健性,并在SARS-CoV-2刺突蛋白抗体结合表位预测中验证了实用价值。
在生命科学领域,蛋白质如何与其他分子相互作用一直是揭示生命奥秘的核心问题。从基因表达到代谢调控,蛋白质与蛋白质、肽段或金属离子的结合直接决定了细胞功能,其异常更与癌症、糖尿病等重大疾病密切相关。传统实验方法如免疫共沉淀、酵母双杂交虽能精确定位结合位点,但耗时耗力且成本高昂,而现有计算模型又面临两大困境:依赖人工提取特征导致信息丢失,以及借用其他领域的图神经网络(GNN)难以捕捉蛋白质特有的空间方向性特征。
为解决这些挑战,清华大学的研究团队在《Research》发表了创新性研究成果。他们开发的SpatConv框架首次将预训练蛋白质语言模型(ProtT5)与原创的生物空间卷积技术相结合,通过四个关键突破实现了蛋白结合位点的精准预测:首创无图(graph-free)架构避免离散拓扑限制,建立局部坐标系保持SE(3)等变性,创新序列-结构特征融合机制,以及引入高斯距离加权增强空间敏感性。
研究采用多源数据集验证性能:蛋白-蛋白相互作用数据来自Docking Benchmark 5.5和Dockground,肽段与金属离子结合数据取自BioLiP数据库。技术路线包含:(1)使用ProtT5提取1024维序列特征并嵌入至64维;(2)以α碳构建13?局部球体,通过Cα-Cβ向量建立旋转不变的局部坐标系;(3)设计空间调制-高斯聚合-残差更新的三阶段生物空间卷积;(4)采用时间划分策略确保模型泛化性,以2021年1月为界划分训练/测试集。
性能全面超越现有方法
在四类结合位点预测任务中,SpatConv的F1分数相较次优方法提升显著:蛋白-蛋白(14.1%)、肽段(26.1%)、Zn2+(33.0%)和Mn2+(26.1%)。特别在AUPRC指标上,对蛋白-蛋白结合预测达到0.386,较传统方法GraphPPIS提升14.9%。模块替换实验证实,相比图卷积网络(GCN),生物空间卷积使F1提高7.1%,推理速度提升近一倍。
结构质量鲁棒性突破
在ESMFold预测结构与实验结构的对比中,性能差异仅1.6-4.3%。消融研究表明初始残差连接是关键,移除后蛋白-蛋白任务的F1差距从4.7%扩大至13.3%。这种稳健性使得模型可直接应用于AlphaFold预测的新蛋白结构。
SARS-CoV-2刺突蛋白实战验证
将SpatConv应用于6VSB蛋白的未结合状态结构,成功预测到受体结合域(RBD)的纳米抗体结合区域(如F377L、K378Q/N突变位点)和N端域(NTD)的超级位点(含Y145、W152等关键残基)。静电势分析显示预测区域具有强电荷互补性,与实验解析的7OAY(纳米抗体F2复合物)和7L2C(中和抗体2-51复合物)结构高度吻合。
这项研究开创性地将自然语言处理技术与几何深度学习相结合,其意义不仅在于技术指标的提升:通过t-SNE可视化发现,传统物化特征如溶剂可及表面积(SASA)和疏水性在结合位点判别中相关性较弱,这挑战了既往认知;而模型对预测结构的适应性,为大规模结构基因组学研究提供了高效工具。研究者已部署免费在线服务器(http://liulab.top/SpatConv/server),该成果将加速抗体药物开发和蛋白质功能注释的进程。
生物通微信公众号
知名企业招聘