PBertKla:精准预测人类赖氨酸乳酸化位点的创新利器,开启蛋白修饰研究新征程

【字体: 时间:2025年04月08日 来源:BMC Biology 4.4

编辑推荐:

  为解决当前赖氨酸乳酸化(Kla)位点识别模型在泛化性和准确性方面的不足,研究人员开展了基于蛋白质大语言模型预测人类 Kla 位点的研究。他们构建了 PBertKla 模型,该模型预测性能出色,优于现有工具,有助于推动乳酸化修饰研究。

  在生命科学的微观世界里,蛋白质翻译后修饰(PTM)就像一把神奇的 “魔法钥匙”,掌控着蛋白质的各种功能。赖氨酸乳酸化(Kla)作为一种新发现的 PTM,在细胞代谢、疾病发展等诸多过程中发挥着关键作用。想象一下,细胞就像一座精密运转的工厂,Kla 则是其中的 “神秘指令”,它的出现或消失,都可能影响工厂的正常运作。然而,要深入了解 Kla 的奥秘,精准识别其修饰位点是关键。目前,虽然液质联用(LC-MS/MS)技术能用于 Kla 位点鉴定,但成本高、耗时长,而现有的计算模型在准确性和泛化性方面也存在不足。这就好比在探索一座神秘岛屿时,现有的航海图不够精确,船只难以准确抵达目的地。
为了攻克这些难题,重庆邮电大学大数据生物智能重庆市重点实验室等研究机构的科研人员踏上了探索之旅。他们的研究成果发表在《BMC Biology》上,为 Kla 位点识别带来了新的曙光。

研究人员开展了一项基于蛋白质大语言模型预测人类 Kla 位点的研究。他们精心构建了一个可靠的基准数据集,并对预训练的蛋白质语言模型进行微调,打造出了 PBertKla 模型。这一模型就像一把精准的 “导航仪”,在 Kla 位点预测的 “海洋” 中表现出色。

在技术方法上,研究人员首先从文献收集原始数据,获取 Kla 和非 Kla 样本,利用 CD-HIT 去除冗余序列构建基准数据集。接着,他们运用 ProteinBERT 模型,对蛋白质和肽序列进行编码,通过复杂的训练和优化过程得到 PBertKla 模型。此外,还使用多种评估指标对模型性能进行评价。

研究结果如下:

  • 基准数据集的构建:研究人员通过分析不同样本长度和序列相似性对预测性能的影响,确定了最佳的样本长度为 45、序列相似性为 30% 的基准数据集。在这个数据集中,他们还发现乳酸化位点周围存在特定的氨基酸偏好,如赖氨酸(K)、丙氨酸(A)在上下游区域富集,甘氨酸(G)在下游有特异性偏好。这就像是在 Kla 位点周围发现了一些独特的 “标记”,为后续研究提供了重要线索。
  • PBertKla 模型的确定:通过对学习率、批量大小和序列长度等超参数进行系统优化,确定了 PBertKla 模型的最佳参数配置。在独立验证数据上,该模型展现出了强大的预测能力,准确率达到 80.3%,灵敏度为 78.7%,特异性为 82.0%,MCC、AUC 和 AUPRC 值分别为 0.607、0.884 和 0.866。这一系列数据表明,PBertKla 模型在 Kla 位点预测方面表现卓越。
  • 特征可视化分析:利用 UMAP 对训练数据集的特征图进行可视化分析,发现模型在融合所有局部和全局表示后,能有效区分 Kla 和非 Kla 样本。这意味着 PBertKla 模型能够捕捉到 Kla 位点的关键特征,就像拥有了一双 “慧眼”,能够精准识别 Kla 位点。
  • 手动特征工程的性能:对比手动特征工程方法,基于神经网络模型的多视图特征融合策略在识别 Kla 位点时,各项指标均不如 PBertKla 模型。这进一步凸显了 PBertKla 模型在捕捉 Kla 位点特异性信息方面的优势。
  • 与现有方法的比较:将 PBertKla 与其他先进的 Kla 预测方法对比,在大多数评估指标上,PBertKla 都表现更优。在独立测试数据集上,PBertKla 的准确率高达 90.6%,远超其他模型。这充分证明了 PBertKla 模型在预测人类 Kla 位点方面的卓越性能和强大的泛化能力。

研究结论和讨论部分表明,PBertKla 作为一种新型深度学习预测器,能够有效捕捉 Kla 肽序列的局部和全局特征,在独立验证和测试数据集上均展现出优异的预测性能。它为 Kla 位点的识别提供了强大的工具,有助于推动乳酸化修饰在健康和疾病领域的深入研究。然而,研究也存在一些可改进的方向,如扩大数据集、整合更多信息、探索新的模型架构以及开发在线平台等。这就像是为未来的研究绘制了一幅蓝图,指引着科研人员继续前行,不断完善对 Kla 位点的研究,为生命科学和健康医学领域的发展贡献更多力量。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号