基于先验知识引导的多模态深度学习框架实现酶周转数(kcat)的缺失模态预测

【字体: 时间:2025年05月23日 来源:Computers in Biology and Medicine 7.0

编辑推荐:

  本研究针对酶催化效率评估中传统实验测定kcat耗时耗力、现有深度学习模型忽视产物反馈抑制效应及多模态数据缺失等问题,提出创新性解决方案MMKcat框架。该研究通过先验知识引导的非均匀掩码训练机制和辅助正则化器,在BRENDA和SABIO-RK数据集上实现RMSE、R2和SRCC指标平均提升6.41%-22.18%,为酶工程和药物设计提供高效计算工具。

  

酶作为生物体内的高效催化剂,其催化效率的量化指标——周转数(kcat)直接决定了生化反应的速率极限。传统实验方法通过湿实验(wet-lab)测量kcat面临两大困境:一方面实验过程需消耗数周时间与昂贵试剂,另一方面公共数据库如BRENDA和SABIO-RK仅覆盖不足15%的已知酶类。更棘手的是,现有深度学习预测模型普遍存在"模态缺失不耐受"缺陷——当缺少产物SMILES(简化分子线性输入规范)或蛋白质三维结构等任一模态时,模型性能断崖式下跌。这严重制约了该技术在新型酶设计、代谢工程等领域的应用前景。

针对这一瓶颈问题,研究人员创新性地开发了MMKcat框架。该研究的核心技术突破体现在三方面:首先采用先验知识引导的非均匀掩码策略,强制模型在训练时即适应不同模态组合(必选酶序列+底物SMILES,可选产物SMILES+蛋白结构);其次设计辅助正则化器促使各模态编码器提取更具判别性的特征;最后通过特征融合Transformer建立跨模态长程依赖关系。在21,381组训练数据上的测试表明,该框架在完全模态下RMSE较DLKcat等基线模型降低6.41%,在仅保留必需模态时R2仍提升22.18%。

关键方法
研究整合BRENDA和SABIO-RK的kcat数据构建评估数据集,通过ESMFold预测蛋白结构。模型架构包含:1)SMILES/序列/结构的多模态编码器;2)先验引导的伯努利掩码模块(酶序列和底物SMILES必选);3)四模态组合训练机制;4)特征融合Transformer。训练采用Adam优化器在NVIDIA 3090 GPU完成。

研究结果
《Turnover number prediction》
通过系统比较早期反应通量计算法与现代DL方法,证实现有模型忽视产物反馈抑制是性能瓶颈。引入产物SMILES模态后,MMKcat在抑制类反应预测误差降低18.7%。

《Method overview》
非均匀掩码策略使模型在缺失产物模态时SRCC保持0.812,较均匀掩码提升8.15%。辅助正则化器通过对比学习促使蛋白结构编码器提取到与催化口袋相关的几何特征。

《Implementation details》
在21,381数据项测试中,MMKcat的RMSE达0.381,较次优模型DLKcat提升6.41%。消融实验显示特征融合Transformer贡献最大性能增益(约34%)。

结论与意义
该研究首次实现酶kcat预测在完整和缺失模态场景下的双重优化,其创新性体现在:1)建立模态重要性分级体系;2)开发面向生物化学特性的训练机制;3)证明多模态协同优于单模态聚合。这项工作为酶理性设计提供新工具,特别适用于产物未知的新反应开发或结构解析困难的膜蛋白研究。论文作者Xin Sun、Yu Guang Wang和Yiqing Shen强调,未来可扩展至多底物协同催化场景,并探索与量子化学计算的联合建模。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号