基于自回归模型的激酶 - 底物预测:解锁细胞信号通路的关键密码

【字体: 时间:2025年05月07日 来源:Computational and Structural Biotechnology Journal 4.5

编辑推荐:

  激酶特异性磷酸化对细胞信号传导和多种疾病意义重大,但多数激酶底物未知且缺乏可靠预测方法。研究人员开展基于自回归模型预测激酶 - 底物对的研究,结果显示该模型性能优异,能助力理解细胞信号传导,推动基础研究和转化研究。

  在生命的微观世界里,细胞时刻进行着复杂而有序的活动,其中激酶特异性磷酸化扮演着至关重要的角色。它如同精密的开关,调控着细胞信号传导,维持细胞的正常生理功能。一旦这一过程出现异常,就如同开关失灵,各种疾病便可能乘虚而入,像癌症、糖尿病、神经退行性疾病以及发育障碍等。然而,目前科学家们面临着一个棘手的问题:即使在研究较为深入的模式生物中,大多数激酶的底物仍然是未解之谜。而且,现有的预测激酶 - 底物关系的方法并不可靠,传统的计算方法往往聚焦于特定位点的磷酸化预测,存在诸多局限性,比如依赖预定义且不完整的激酶 - 底物关系,使用短肽来代表底物,忽略了激酶与蛋白质底物之间更广泛的相互作用等 。为了攻克这些难题,深入了解细胞信号传导的奥秘,探索疾病发生发展的机制,研究人员开展了一项具有创新性的研究。研究人员利用自回归模型预测激酶 - 底物对,将该问题重新定义为一种特殊的蛋白质 - 蛋白质相互作用(PPI)预测任务。研究成果发表在《Computational and Structural Biotechnology Journal》上,为生命科学和医学领域带来了新的曙光。
在这项研究中,研究人员采用了多种关键技术方法。首先是数据处理技术,他们从 GPS 6.0 获取数据,并从 Uniprot 数据库和kinase.com数据库提取相关序列信息,利用 CD-HIT 软件进行冗余处理,构建了包含正负样本的数据集。其次,模型构建上,以 ESM-2 作为编码器,结合自回归解码器构建模型。最后,在训练和评估环节,采用特殊策略选取正负样本,使用加权损失函数处理数据不平衡问题,并在多个测试集上进行评估 。

下面来看具体的研究结果。在独立测试评估中,研究人员用独立测试集评估模型对未知数据的泛化能力,该测试集与训练集无重叠,包含正负样本。结果显示,使用完整激酶序列训练的模型表现最佳,F1 分数达到 0.71,准确率为 0.72,MCC 为 0.425,这表明完整激酶序列能提供更丰富的相互作用特征信息 。与其他方法相比,如 PhosphormerST 和 GPS 6.0,该模型在各项指标上展现出优势。在 GPS 提供的测试集中,该模型 F1 分数达 0.95,准确率 0.91,远超 GPS 6.0。

在 top-k 命中分析中,研究人员创建 top-k 数据集,评估模型对潜在激酶的排序能力。通过一系列预处理和选择步骤,生成包含众多激酶 - 底物对的数据集。结果表明,该模型在不同 k 值下均优于 PhosformerST,且随着 k 值增加,性能优势更明显,说明模型能更准确地预测和泛化激酶 - 底物对 。

在零样本评估方面,研究人员使用三个不同的数据集测试模型的零样本性能。随机分割数据集是从训练集中随机保留一部分作为测试集,保持正负样本比例;频率分层数据集根据激酶组出现频率划分训练和测试集,用于评估模型对数据较少的激酶组的预测能力;NKP 数据集包含训练集中未出现的激酶 - 底物对,用于模拟真实场景下的零样本学习 。结果显示,在不同数据集上模型都取得了不错的成绩,如在随机分割数据集上,召回率达 0.97,F1 分数 0.98,准确率 0.97,证明了模型在零样本学习中的有效性。

综合研究结果和讨论部分,该研究具有重要意义。研究人员提出的基于自回归模型的激酶 - 底物预测方法,与传统方法不同,将问题定义为 PPI 任务,通过利用完整激酶 - 底物序列、采用自回归模型和创新的负样本生成方法,在性能上超越了现有方法 。该模型不仅能更准确地预测激酶 - 底物相互作用,还在零样本学习中表现出色,能够有效预测全新的激酶 - 底物对,这对于完善磷酸化网络、支持下游磷酸化位点预测具有重要价值,有助于推动基础生物学研究和药物研发,为理解疾病机制和寻找治疗靶点提供了有力的工具。不过,该方法也存在一定局限性,如对 GPU 内存需求大、受限于激酶 - 底物相互作用数据集的规模,且模型仅针对人类开发 。未来研究人员计划开发更通用的模型,整合结构信息,以提高模型的准确性和泛化能力,为生命科学和健康医学领域带来更多突破。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号