基于ResNet架构与蛋白质语言模型嵌入的赖氨酸琥珀酰化位点预测新方法ResLysEmbed

【字体: 时间:2025年08月25日 来源:Bioinformatics Advances 2.8

编辑推荐:

  本研究针对赖氨酸(K)琥珀酰化位点预测性能不足的问题,开发了融合ResNet架构与ProtT5语言模型嵌入的ResLysEmbed框架。通过系统比较4种蛋白质语言模型和3种混合架构,模型在独立测试集上取得0.81准确率和0.44 MCC值,较现有方法提升2-13%。SHAP分析揭示了33残基窗口内结构距离对预测的影响,为理解琥珀酰化机制提供了新工具。

  

在生命科学领域,赖氨酸琥珀酰化(K succinylation)作为一种新兴的翻译后修饰(PTM),因其能引起+1到-1的电荷反转和100 Da的质量变化,已成为调控基因表达和代谢通路的关键机制。近年研究发现,这种修饰与癌症、阿尔茨海默病甚至SARS-CoV-2感染密切相关。然而传统质谱检测方法耗时耗力,而现有计算模型如iSuc-PseAAC、LMSuccSite等存在性能瓶颈或解释性不足的问题。

针对这些挑战,孟加拉国BUET团队在《Bioinformatics Advances》发表研究,创新性地将ResNet架构与蛋白质语言模型(PLM)嵌入相结合。研究通过系统评估ProtT5、ESM-3B等4种PLM的特征提取能力,开发出包含残差连接的ResLysEmbed框架。模型采用双分支设计:ResNet分支处理21维词嵌入序列,MLP分支整合1024维ProtT5局部嵌入,通过端到端训练实现特征协同优化。

关键技术包括:1) 采用33残基窗口(16-K-16)的词嵌入策略;2) 基于mRMR和XGBoost的特征选择确定ProtT5为最优PLM;3) 构建ConvLysEmbed/InceptLysEmbed/ResLysEmbed三种混合架构对比;4) 使用dbPTM1815数据集和AlphaFold结构数据进行SHAP可解释性分析。

模型架构比较

10折交叉验证显示ResLysEmbed以0.7965准确率和0.8521 AUPRC显著优于对照模型。独立测试集验证中,其0.8053准确率和0.8733 AUROC超越PTMGPT2等最新模型,在非冗余数据上保持0.344 MCC的稳健性。

特征分析

SHAP分析揭示距靶点<5?的结构邻近残基贡献度提升40%,证实模型能自发捕捉空间约束特征。t-SNE可视化显示训练后特征空间形成明显聚类,证实学习有效性。

讨论与展望

该研究首次证明ResNet架构处理蛋白质序列的优越性,其参数效率较传统CNN降低30%。案例研究显示模型在α螺旋和随机线圈等复杂环境中均保持90%以上预测精度。未来可扩展至其他PTM预测,为疾病机制研究和药物靶点发现提供新工具。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号