
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于蛋白质语言模型ESM2的MULoc-Target:精准分类与检测真核蛋白靶向肽的新方法
【字体: 大 中 小 】 时间:2025年08月28日 来源:Briefings in Bioinformatics 7.7
编辑推荐:
本研究针对真核蛋白靶向肽分类与定位的挑战,开发了基于ESM2蛋白质语言模型的深度学习工具MULoc-Target。通过构建UniProt-EC7基准数据集,结合参数高效微调(PEFT)技术,实现了8类靶向肽(如MT、SP、NLS等)的高精度分类与残基级定位(平均SOV得分0.691),其预测的基序模式与已知生物学特征高度吻合。该研究为解析蛋白质分选机制提供了新工具,相关成果发表于《Briefings in Bioinformatics》。
在细胞这个精密运转的"分子工厂"中,蛋白质需要被准确运送至特定区域才能发挥功能,这一过程依赖被称为"靶向肽"的短氨基酸序列。尽管科学家已发现线粒体转运肽(MT)、核定位信号(NLS)等8类主要靶向肽,但现有预测工具如TargetP 2.0仅能识别部分类型,且无法精确定位信号位置。更棘手的是,数据库中存在大量未经实验验证的注释,这为机制研究带来不确定性。
为解决这些问题,Yuexu Jiang等研究者开发了MULoc-Target系统。该研究首先从UniProt数据库筛选获得实验验证的靶向肽数据,构建UniProt-EC7基准数据集(含5个交叉验证分组)。技术核心在于:1)采用650M参数的ESM2蛋白质语言模型进行序列编码;2)创新性地结合参数高效微调技术(包括最后K层微调、LoRA低秩适应等);3)设计任务特异性预测头(CNN处理NLS/NES,MLP处理末端信号);4)开发基于二项分布的数据增强策略以平衡样本。
MULoc-target架构
系统将蛋白质分割为1022氨基酸的片段,经ESM2编码后重组为完整序列表示。8个任务头分别输出信号强度矩阵,通过垂直最大池化确定每个位置的优势信号类型。这种设计突破了传统方法仅分析N端200氨基酸的限制,实现全序列扫描。
参数-efficient fine-tuning on ESM2 encoder
对比三种参数高效微调策略,最后2层微调表现最优(平均MCC 0.776)。例如对信号肽(SP)的检测准确率达0.973,显著高于适配器调优(0.976)和LoRA(0.978)方法。
MULoc-target提供全面准确的靶向肽分类与检测
在TargetP数据集测试中,MULoc-Target对MT、SP、TH的分类F1分数(0.92、0.98、0.79)全面超越TargetP 2.0。特别是对TH信号的切割位点检测准确率达0.90,较TargetP提升50%。唯一例外是叶绿体转运肽(CH)的切割位点检测(0.34 vs 0.49),研究者解释这与TH信号必须紧随CH信号的生物学特性有关。
精确靶向肽检测助力高分辨率机制分析
通过GLAM2分析预测的靶向肽,研究者揭示了各类信号的保守基序:MT富含精氨酸(R)并具有"RXXR"切割特征;SP包含典型的N端带正电区、中部疏水区和C端小分子残基区;NLS呈现碱性残基簇(K/R)形成的"基本斑块"。这些发现与已知的转运机制高度吻合,如MT的正电荷特征利于与线粒体膜电位相互作用。
MULoc-target可能修正UniProt中的靶向肽注释
研究者通过AlphaFold 3验证了与PEX5受体的结合界面,发现MULoc-Target预测的PTS1信号(如酵母NPY1的C端SHL三肽)比数据库注释的KTS更符合实验结构。该案例证实了工具在纠正低质量注释方面的价值。
这项研究通过创新性地整合蛋白质语言模型与参数高效学习,建立了目前最全面的靶向肽分析平台。其预测结果不仅与已知生物学特征相互印证,还能发现数据库中的潜在错误注释。研究者公开了所有数据集、代码和在线服务器(https://mu-loc.org/MULoc-Target),为蛋白质分选机制研究提供了重要工具。未来通过整合ProtT5等新型语言模型或结构信息,有望进一步提升对NES等复杂信号的检测性能。
生物通微信公众号
知名企业招聘