
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于可解释性双线性注意力网络与证据深度学习的酶催化效率预测模型IECata及其应用研究
【字体: 大 中 小 】 时间:2025年06月24日 来源:Briefings in Bioinformatics 6.8
编辑推荐:
本研究针对酶催化效率(kcat/Km)预测中数据稀缺、预测可靠性不足及机制解释困难三大挑战,开发了整合证据深度学习(EDL)与双线性注意力机制的IECata模型。该研究通过构建11,815条酶-底物对数据集,实现了较现有技术(SOTA)模型UniKP提升7.5%的预测精度,并首次提供预测不确定性量化,成功将关键残基识别准确率提升至实验验证位点的2.4倍,为定向酶进化提供了可靠的计算工具。
在生物制造与药物研发领域,酶催化效率(kcat/Km)是衡量酶活性的黄金标准。然而传统实验测定方法耗时费力,而现有计算模型又面临三大困境:数据量不足(如UniKP模型仅使用910条数据)、预测结果缺乏可靠性评估、无法解释酶-底物相互作用机制。这导致定向酶进化过程中常需反复试错,严重制约了高效酶的设计开发。
针对这些挑战,国家生物防护装备工程技术研究中心联合上海大学等机构的研究团队在《Briefings in Bioinformatics》发表了创新性研究成果。他们开发的IECata模型通过三大技术突破实现了酶催化效率的精准预测:1)从BRENDA和SABIO-RK数据库整合11,815条kcat/Km数据,构建了当前最大规模的数据集;2)采用证据深度学习(EDL)框架,在预测同时输出不确定性评分;3)创新性地引入双线性注意力机制,可视化展示酶活性口袋关键残基与底物原子的相互作用。
关键技术方法包括:1)基于ProtT5预训练模型提取酶序列特征,结合轻量注意力(LA)机制优化特征表达;2)使用图卷积网络(GCN)编码底物分子拓扑结构;3)通过双线性注意力网络建立酶-底物局部相互作用模型;4)采用正态-逆伽马分布进行不确定性校准,参数λ优化为0.2。测试数据包含806条文献收集的域外独立数据。
高精度的域内测试表现
在五折交叉验证中,IECata的R2达到0.573,较UniKP提升7.5%。特别对突变酶预测PCC达0.803,显示其对蛋白质工程应用的突出价值。消融实验证实ProtT5+LA的特征提取组合使MAE降低8.9%,双线性注意力机制较传统串联方法误差降低14.8%。
可靠的预测不确定性校准
通过λ=0.2的正则化系数,模型实现90%置信区间校准。总不确定性(包含认知不确定性和偶然不确定性)与预测误差的Spearman相关系数达0.202(P<0.001),显著优于随机不确定性模型。在预测值排序中引入不确定性考量,使定向进化筛选命中率最高提升80%。
双线性注意力机制的可解释性
在6ONM等晶体结构中,模型准确识别出DDXXD保守模体中的关键残基(如D347),以及底物磷酸基团的氢键相互作用位点。定量分析显示,预测的高注意力残基与实验验证结合位点的重合数达1.911个(z-score=2.368),显著高于随机预期。在定向进化数据集中,注意力权重最高的残基与功能突变位点(如epi-isozizaene合成酶的236位)高度吻合。
域外测试的稳健表现
在分布差异显著(K-S检验P=2.23×10-4)的806条域外数据上,IECata保持PCC=0.663,显著优于直接使用UniKP预训练模型的结果(PCC=0.463)。针对萜烯合酶类(如germacrene A synthase),模型在top20%预测中的突变体筛选命中率达50-100%。
该研究通过多学科方法融合,首次实现了酶催化效率预测的"精度-可靠性-可解释性"三重突破。特别值得注意的是:1)构建的kcat/Km数据集规模达现有标准的13倍;2)EDL框架使研究人员能依据不确定性评分筛选高置信度预测;3)注意力可视化为理性设计突变提供了明确靶点。这些创新使得IECata不仅能加速定向进化进程,更为理解酶催化机制提供了新工具。未来通过整合元学习与自监督技术,有望进一步突破稀有酶类的预测瓶颈。研究团队已部署在线预测平台(http://mathfc.nscc-tj.cn/cataai/),推动计算酶学向实际应用转化。
生物通微信公众号
知名企业招聘