
-
生物通官微
陪你抓住生命科技
跳动的脉搏
蛋白质语言模型与图神经网络的融合:三维结构信息对蛋白质-配体结合残基预测的影响研究
【字体: 大 中 小 】 时间:2025年08月01日 来源:Bioinformatics 5.4
编辑推荐:
本研究针对蛋白质-配体结合位点预测中序列与结构信息利用不充分的问题,通过整合蛋白质语言模型(pLMs)和图神经网络(GNNs)构建了Hybrid模型。研究团队采用ProtT5-XL-UniRef50等pLM生成残基级嵌入作为节点特征,结合基于PDB结构的图注意力网络(GAT),在12类配体的基准数据集上验证了结构信息的增强作用。结果表明,GAT8模型平均MCC达0.592,较序列基线提升9.4%,尤其发现复杂pLMs已隐含结构信息。该成果为药物发现和生物技术应用提供了新方法,发表于《Bioinformatics》。
在生命科学领域,准确预测蛋白质与配体的结合位点犹如破解分子间的"密码锁",对理解生命机制和药物开发至关重要。传统方法分为两类:依赖进化保守性的序列分析,或基于三维结构的几何测量。然而,前者无法捕捉空间邻近效应,后者则受限于实验结构获取难度。随着AlphaFold2等工具预测的蛋白质结构库爆发式增长,一个核心矛盾浮出水面——当先进的蛋白质语言模型(pLM)已能从序列中学习结构特征时,显式引入三维结构信息究竟能带来多少增益?
捷克查理大学数学与物理学院的研究团队在《Bioinformatics》发表的这项研究,巧妙融合了序列与结构分析两大范式。他们构建的Hybrid模型将ProtT5等pLM生成的残基嵌入作为图节点特征,通过α-碳原子距离阈值构建蛋白质图,并创新性地采用图注意力网络(GAT)处理空间信息。在包含ATP、DNA、锌离子等12类配体的Yu基准测试中,8?截断距离的GAT8模型表现最优,其注意力机制能自动聚焦于结合位点周围的关键残基。尤为重要的是,研究发现当使用参数量达30亿的ESM-2等复杂pLM时,结构信息的相对贡献度下降至3%,暗示顶尖pLM已通过海量训练隐式掌握了结构规律。
研究采用的关键技术包括:1) 从PDB/BioLip数据库获取实验结构构建残基级图;2) 使用ProtTrans项目的预训练pLM生成1024维残基嵌入;3) 设计单层GAT架构避免过平滑问题;4) 通过5折交叉验证评估不同截断距离(4-10?)的影响。为验证普适性,团队还构建了严格控制序列/配体相似性的PDDBind数据集,采用MMseqs聚类和ECFP4指纹确保数据独立性。
【结构信息贡献的量化分析】
通过比较GAT8与随机图基线的MCC差值,研究发现:对于AAIndex等简单特征,引入真实结构使Zn2+预测提升75%(Δrel=1.734),而使用ESM-2时仅提高0.9%。这表明复杂pLM已编码了足以支撑预测的空间约束信息。
【注意力机制的可解释性】
如图4所示,锌指抗病毒蛋白(3u9g)中,Cys73的预测依赖远端His86的注意力权重(0.68)。类似地,图5展示GTP结合位点Thr15的识别得益于4.2?外的Asp53信号,印证了GAT能捕捉非连续空间模式。
【跨数据集验证】
在PDDBind的2,516个复合物测试中,SeqVec嵌入的GAT8相对序列基线提升11.2%(P<0.01),而ESM-2仅提高0.3%(P>0.05),再次证实模型复杂度与结构增益的负相关规律。
这项研究确立了pLM-GNN框架在结合残基预测中的优势地位:GAT8模型在DNA结合位点预测的AUPR达0.932,超越GraphBind等专门模型。其核心启示在于,虽然显式结构信息总能提升预测精度(绝对增益Δabs平均0.04-0.06),但现代pLM通过自监督学习已部分"内化"了结构规则。这为未来研究指明方向——当预测资源受限时,仅用复杂pLM也可获得可靠结果;而追求极限精度时,整合实验结构仍具价值。该成果不仅为变异效应预测(VEP)和药物设计提供新工具,更深化了对蛋白质序列-结构-功能关系的认知边界。
生物通微信公众号
知名企业招聘