编辑推荐:
为评估蛋白质大语言模型(LLM)预测酶委员会(EC)编号的性能,葡萄牙米尼奥大学研究人员开展研究,发现 LLM 与 BLASTp 互补,结合使用效果更佳,为酶注释提供新视角。
在生命科学的微观世界里,酶就像一个个神奇的 “小工匠”,催化着各种生化反应,对细胞代谢、基因组注释等起着至关重要的作用。酶委员会(EC)编号则是给这些 “小工匠” 分类的一套标准体系,准确预测 EC 编号对于理解酶的功能、完善基因组注释流程意义重大。
然而,目前的预测工具存在不少问题。传统的基于序列相似性的方法,如 BLASTp(基本局部比对搜索工具),虽然应用广泛,但遇到没有同源序列的蛋白质时就束手无策;而基于机器学习(ML)的方法,包括深度学习(DL)模型,单独使用时效果也不尽人意。近年来,蛋白质大语言模型(LLM)兴起,被用于预测 EC 编号,但不同 LLM 之间的性能差异如何,与传统方法相比又有何优劣,这些问题都有待解答。
为了深入探究这些问题,葡萄牙米尼奥大学(University of Minho)等机构的研究人员展开了一项全面的研究。他们精心设计实验,深入评估先进的蛋白质表示方法和 DL 架构在预测 EC 编号方面的表现,试图为酶注释领域开辟新的道路。
研究人员采用了一系列关键技术方法。首先,从 UniProtKB 数据库中提取和处理数据,经过筛选和处理,最终得到包含 380,811 种酶的数据集。接着,将数据进行合理拆分,采用多种策略划分训练集、验证集和测试集,以确保数据的代表性和标签的均衡分布。然后,使用 ProtBERT、ESM1b 和 ESM2 这三种预训练的 LLM 作为特征提取器,获取酶氨基酸序列的嵌入表示。同时,构建不同架构的模型,包括基线模型和添加隐藏层的深度神经网络(DNN)模型,并重新实现了 D-SPACE 和 DeepEC 模型进行对比。此外,利用 BLASTp 进行序列比对注释,将其结果与 DL 模型对比。最后,运用多种评估指标,如 F1 分数(F1 score)、召回率(Recall)、精确率(Precision)、准确率(accuracy)和层次一致性误差(Hierarchical Consistency Error,HCE)等,全面评估模型性能。
研究结果主要如下:
- DNN-LLM 与 BLASTp 表现相当:使用 LLM 嵌入的模型(DNN-LLM)在整体表现上与 BLASTp 相近。在 mF1 分数方面,BLASTp 略胜一筹,但差距极小;在 mPrecision 和 mRecall 指标上,两者各有优势。当序列同一性低于 25% 时,DNN-LLM 模型的预测效果优于 BLASTp;而在高同一性水平下,BLASTp 表现更优。在预测不同 EC 类别的酶时,两者也各有擅长的领域,且结合使用(Models + BLASTp)能获得更好的性能16。
- BLASTp 在不同同一性阈值下表现出色:研究发现,随着酶序列划分时同一性阈值的提高,所有模型的性能都有所提升。BLASTp 在各个同一性水平下都表现强劲,mF1 分数显著高于 DL 模型;DNN-LLM 模型中,DNN ESM2 3B 表现最佳,但仍稍逊于 BLASTp;D-SPACE EC 和 DeepEC CNN3 模型性能相对较低23。
- DNN-LLM 成功学习 EC 系统层次结构:DNN-LLM 模型在学习 EC 系统层次结构方面表现出色,具有较低的 S-min 值和 HCE 值,能更准确地捕捉信息。不同 DNN-LLM 模型在不同召回率水平下各有优势,如 DNN ESM2 3B 在高召回率时精度更高,更稳定;DNN ProtBERT 在低召回率时能保持较高精度45。
- DNN-LLM 与 BLASTp 互补:通过比较 BLASTp 和 DNN-LLM 模型对不同 EC 类别的预测性能,发现虽然 BLASTp 在更多 EC 编号的预测上表现更好,但每个 DNN-LLM 模型都在数百个类别上超越了 BLASTp,两者具有互补性76。
- DNN-LLM 在困难任务上超越 BLASTp:在对新注释的细菌酶和卤化酶等具有挑战性的数据集进行预测时,BLASTp 的表现不如大多数基于 LLM 的模型。例如在新注释细菌酶数据集上,DNN ESM2 3B 和 DNN ESM1b 表现突出;在卤化酶数据集上,虽然 CLEAN 表现最佳,但 BLASTp 的准确性低于多数方法,而 DNN ESM2 3B、DNN ESM1b 等在部分酶类的预测上表现良好899。
综合研究结果与讨论,这项研究为酶注释领域带来了重要突破。它首次全面比较了不同 LLM 在预测 EC 编号任务中的性能,并与传统的 BLASTp 方法进行深入对比,为后续研究提供了可借鉴的实验框架和数据支持。研究表明,LLM 作为特征提取器比基于 one-hot 编码的模型更具优势;尽管目前 LLM 尚未超越 BLASTp 成为酶注释的金标准工具,但在处理困难注释任务和无同源序列的酶时,LLM 展现出独特的潜力。同时,BLASTp 和 LLM 模型具有互补性,联合使用能显著提升预测效果。未来,研究人员可进一步优化两者的结合方式,开发更精准的酶注释工具。此外,研究还指出,目前的框架只能预测 EC 编号,无法判断输入分子是否为酶,这也为后续研究指明了方向。该研究成果发表于BMC Bioinformatics期刊,为生命科学领域的酶功能研究和基因组注释工作提供了重要的理论依据和实践指导 ,有望推动相关领域的进一步发展。