仅基于正向酶-反应对的蛋白质语言模型的自我监督领域适应

《Computational and Structural Biotechnology Journal》:Self-supervised domain adaptation of protein language model based solely on positive enzyme-reaction pairs

【字体: 时间:2025年11月23日 来源:Computational and Structural Biotechnology Journal 4.1

编辑推荐:

  酶催化性质预测的自监督领域适应方法研究。提出仅基于正例酶-反应对的训练策略,通过多编码器架构优化蛋白质语言模型(ESM-1b),无需合成负例实现高效表征学习。实验表明该方法在周转数预测(R2=0.65 vs 0.63)和酶底物特异性筛查(PR-AUC=0.82 vs 0.78)中均优于传统负例生成方法,尤其在低相似性数据集上表现更优。

  近年来,随着生物化学数据库的不断扩展,科学家们对构建能够预测酶催化特性的模型表现出浓厚的兴趣。这些模型旨在利用跨不同酶家族的酶活性数据,从而更全面地理解酶的功能特性。然而,现有的公共数据库往往存在一些固有的偏差,主要体现在它们通常只记录有效的酶活性,而很少包含负例(即无效的酶活性),并且对酶的定量催化参数(如催化效率)的报道也仅限于少数酶。这些限制使得酶催化特性的监督学习面临重大挑战,因为缺乏负例和定量标签会严重影响模型的泛化能力和准确性。

为了克服这一障碍,一些研究尝试通过合成负例酶-活性对来扩展训练数据。这种方法通常通过重新组合现有酶及其活性信息(如底物或化学反应)来生成负例,这些信息在原始数据集中并不相关。然而,这种方法的局限性在于,生成的负例是否真正代表了酶的无活性状态,还是仅仅是没有观察到的活性实例,这一点仍然存在疑问。此外,一些酶表现出广泛的催化能力(即促多反应性),这也引发了对这些酶是否应被包含在负例数据集中的争议。

鉴于上述问题,本文提出了一种基于正向酶-反应对的自监督域适应方法,用于预训练的蛋白质语言模型。该方法旨在构建能够捕捉不同酶家族功能特性的模型,同时避免依赖于合成的负例数据。通过这种方法,模型能够更有效地从酶序列和反应信息中学习功能相关的表示,而无需引入可能带来偏差的负例数据。实验结果显示,该方法在预测天然酶的催化效率以及预测家族范围内的酶-底物特异性数据集中的活性方面,均表现出优于或至少与依赖合成负例的现有方法相当的性能。

在构建这一模型的过程中,研究人员首先构建了一个名为EnzSRP(酶氨基酸序列-反应对)的数据集,其中包括来自多个酶家族的酶序列与其对应的化学反应。该数据集通过从UniProtKB和Rhea数据库中收集数据,并结合注释信息进行构建。值得注意的是,该方法不同于传统的基于分类框架(如GO注释和EC编号)的序列-底物关联方式,而是直接通过序列与反应的映射来构建数据对,从而减少中间步骤带来的偏差。

为了进一步提高模型的性能,研究人员采用了多编码器架构,将蛋白质序列和化学反应分别编码,并通过某种方式将序列编码结果整合到反应编码器中。这种设计使得蛋白质语言模型能够将与反应相关的特征信息集中到一个统一的表示向量中,从而为后续的酶相关任务提供直接可用的编码器。此外,模型还采用了一种自监督的训练策略,即在化学反应上进行掩码语言建模(Masked Language Modeling, MLM),并使用较高的掩码率(30%)来增加训练难度,从而促使模型学习更鲁棒的表示。

在实验评估方面,研究团队对模型的性能进行了多方面的测试,包括催化效率预测和酶-底物活性预测。对于催化效率预测,研究人员使用了Kroll等人提出的实验方法,基于BRENDA、UniProtKB和Sabio-RK数据库中的数据进行验证。结果显示,基于EnzSRP数据集训练的模型在预测催化效率方面表现出更高的准确性。此外,在酶-底物活性预测任务中,该模型在多个数据集上均取得了优异的表现,包括卤化酶、硫醇酶、β-酮酸裂解酶(BKACE)、磷酸酶和酯酶等。这表明,该模型在捕捉不同酶家族的功能特性方面具有广泛的应用潜力。

在模型的训练过程中,研究团队还采用了多种优化策略,包括使用AdamW优化器、设置不同的学习率以区分预训练参数和新初始化参数、应用权重衰减以防止过拟合,以及使用梯度裁剪来增强训练稳定性。此外,由于训练和评估过程的计算成本较高,研究团队没有进行广泛的超参数调优,而是采用了基于直觉的初始设置,并在关键参数(如掩码率和学习率)上进行了有限的敏感性分析。结果显示,掩码率的降低会显著影响模型的预测性能,而学习率的变化则对性能的影响较小。

为了进一步验证模型的泛化能力,研究团队还对模型的预测结果进行了统计分析。他们发现,即使在与训练集相似度较低的测试子集中,基于EnzSRP数据集训练的模型仍然能够保持较高的预测性能,这表明模型具有较强的泛化能力。此外,研究团队还对分子覆盖范围进行了分析,发现ESP预训练集在化学空间上的覆盖范围更广,这可能对催化活性预测的性能产生一定影响。

在酶-底物结合位点预测方面,研究团队采用了与RXNAAMapper类似的方法,但其模型结构有所不同。RXNAAMapper通过将酶序列和反应信息联合编码,并利用注意力机制来识别结合位点,而本文的方法则采用多编码器架构,将蛋白质序列和化学反应分别编码,并通过注意力机制来提取与结合位点相关的特征。实验结果显示,该模型在结合位点预测任务中表现良好,其注意力权重与已知的结合位点具有较高的重叠度,同时保持较低的假阳性率。这表明,该模型能够在不依赖三维结构信息的情况下,有效识别酶的结合位点。

尽管本文的方法在多个方面表现出优势,但研究团队也指出了其潜在的局限性。首先,EnzSRP数据集的组成可能存在偏差,这可能导致模型在某些特定的酶家族上表现不佳。其次,由于大规模蛋白质语言模型的计算成本较高,研究团队在超参数调优方面受到限制,未来可能需要采用更轻量级的模型以提高计算效率。此外,虽然本文的方法能够有效避免合成负例带来的偏差,但其是否能够完全取代合成负例在某些特定任务中的作用,仍需进一步研究。

总的来说,本文提出了一种基于正向酶-反应对的自监督域适应方法,用于预训练蛋白质语言模型。该方法在多个酶相关任务中表现出良好的性能,并且能够有效避免合成负例带来的偏差。尽管仍存在一些局限性,但这一方法为未来的研究提供了一个新的思路,即如何在不依赖负例数据的情况下,利用生物化学数据库中的酶活性数据来构建更准确的模型。随着生物化学数据库的持续增长,这种自监督方法有望成为酶功能研究的重要工具。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号