综述：蛋白质翻译后修饰位点预测的计算方法系统综述

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ARCHIVES OF COMPUTATIONAL METHODS IN ENGINEERING》：A Systematic Review of Computational Methods for Protein Post-Translational Modification Site Prediction

【字体：大中小】 时间：2025年10月28日 来源：ARCHIVES OF COMPUTATIONAL METHODS IN ENGINEERING 12.1

编辑推荐：

　　本综述系统回顾了2012-2024年间蛋白质翻译后修饰（PTM）位点预测领域的研究进展，重点分析了500余篇文献涵盖的36种PTM类型。文章详细梳理了PTM相关数据库资源、特征提取方法（序列特征、理化性质、结构特征等）和分类算法（支持向量机、随机森林、深度学习等），并通过CiteSpace可视化分析揭示了该领域从传统机器学习向多特征融合、复合模型发展的研究热点。特别指出深度学习技术在处理复杂PTM模式中的优势，同时对新兴PTM类型（如β-羟基丁酰化）预测面临的样本不平衡挑战提出前瞻性展望。

1 引言

蛋白质翻译后修饰（PTM）在调控蛋白质功能、细胞信号转导等关键生物学过程中发挥着决定性作用，其异常与神经退行性疾病、心血管疾病和癌症等多种疾病的发生发展密切相关。传统实验方法如质谱（MS）虽然精度高，但存在耗时费力、成本高昂等局限性。近年来，随着计算能力的提升和人工智能（AI）算法的发展，利用机器学习（ML）和深度学习（DL）技术从蛋白质序列中快速准确预测PTM位点，已成为实验方法的重要补充策略。

2 蛋白质翻译后修饰的综合分析

2.1 修饰类型的多样性

PTM类型极其丰富，本研究系统分析的500余篇文献覆盖了36种不同类型的PTM。其中磷酸化、泛素化、琥珀酰化、甲基化、糖基化、SUMO化、巴豆酰化和乙酰化这8类常见PTM的研究占比超过总数的一半，而新兴修饰如β-羟基丁酰化（Kbhb）、乳酸化（lactylation）等由于实验数据积累缓慢，预测模型相对稀缺。研究显示，针对新型PTM的预测研究存在明显滞后性，这主要受限于训练样本量小、序列保守性低以及需要整合结构、功能等多源信息的技术挑战。

2.2 公共数据库

PTM研究高度依赖高质量数据资源，本研究汇总了52个常用数据库，其中UniProt以20.78%的引用频率位居首位，其整合的Swiss-Prot子库提供23种PTM类型的高质量注释。专一性数据库如PLMD（专注赖氨酸修饰）和CPLM在特定修饰类型中提供更精细的数据。数据库构建通常遵循标准化流程：从数据库检索序列→去除冗余→截取固定长度窗口片段→生成正负样本→处理数据不平衡问题，为模型训练提供可靠基础。

2.3 特征提取方法分析

特征提取是PTM预测的核心环节，主要分为七大类：序列特征（Seq-Feat）、理化性质特征（PCPF）、结构特征、进化保守特征（ECF）、统计特征、信息理论特征（ITF）和深度学习特征。其中序列特征应用最广（45.61%），常用方法包括K间隔氨基酸对组成（CKSAAP）、伪氨基酸组成（PseAAC）等；深度学习特征虽占比不高（9.95%），但通过嵌入编码（embedding）、BERT等技术能自动学习复杂模式。研究趋势显示多特征融合策略显著提升模型性能。

3 分类算法总结与分析

3.1 传统机器学习方法

支持向量机（SVM）以44.42%的占比成为最主流算法，其通过核函数映射解决非线性分类问题；随机森林（RF）凭借集成学习优势占比16.98%；XGBoost、K近邻（KNN）和人工神经网络（ANN）分别占4.19%、3.72%和3.02%。这些算法在处理平衡数据集时展现良好性能，其标准流程包括：数据准备→特征提取→模型训练→验证评估→部署应用。

3.2 深度学习方法

自2017年MusiteDeep开创DL在PTM预测的先河以来，卷积神经网络（CNN）以34.30%的占比主导该领域，其擅长捕捉序列局部特征；双向长短期记忆网络（BiLSTM，8.70%）能有效处理序列依赖关系；深度神经网络（DNN，7.25%）和Transformer架构在复杂模式识别中表现突出。深度学习模型通过端到端学习自动提取特征，但在小样本场景易过拟合且可解释性较弱。

3.3 混合算法

近年来出现的混合模型（如传统ML与DL结合）通过互补优势提升预测精度。例如MIND-S模型能同时预测26种PTM类型，GPS-Lipid整合多种脂修饰预测功能。这类模型在设计时需特别注意特征对齐和算法协同问题。

3.4 不平衡PTM数据集的评估指标

针对PTM数据中修饰位点远少于非修饰位点的特性，推荐使用马修斯相关系数（MCC）、F1分数和精确召回曲线下面积（PR-AUC）等对类别不平衡不敏感的指标，避免准确率（accuracy）和ROC-AUC在 skewed 数据集上的误导性结果。

4 PTM多类别预测研究分析

多类型PTM预测工具中，MIND-S覆盖26种修饰类型最为全面，而针对2-4种修饰类型的预测模型占比达48.3%。乙酰化是研究最广泛的PTM，共有8种代表性工具；甲基化、SUMO化等也有持续研究。这些工具普遍采用多特征融合策略，如iRice-MS整合位置加权氨基酸组成（PWAA）、进化特征等11类特征，通过XGBoost实现水稻多类型PTM预测。

5 各PTM预测最新典型研究成果总结

当前研究呈现三大趋势：特征选择从单一序列特征向结构特征（如溶剂可及表面积ASA）、进化信息（如位置特异性评分矩阵PSSM）和深度学习特征（如ProtBERT）多维融合发展；算法设计从单一模型向CNN-BiLSTM-注意力机制等复合架构演进；资源建设注重在线平台开发，如MusiteDeep、DeepNitro等均提供网页服务器促进成果共享。值得注意的是，新型预测工具pFunK通过元学习（meta-learning）技术解决β-羟基丁酰化等稀有修饰的数据稀缺问题，并成功揭示ALDOB Lys¹⁰⁸bhb修饰在酮食重塑癌症代谢中的关键作用，凸显计算预测与实验验证结合的应用价值。

6 基于CiteSpace的PTM关键词可视化分析

通过CiteSpace对2012-2024年文献的关键词聚类分析（轮廓值0.8823）识别出11个核心研究方向：氨基酸序列分析、深度学习技术、机器学习算法、支持向量机模型、通用伪氨基酸组成（PseAAC）理论、随机森林算法、增量特征选择、卷积神经网络架构、蛋白质理化性质研究、五步规则预测法和随机森林分类器应用。时序演进显示：2015年前研究集中于传统特征工程，2015年后深度学习相关节点密度显著增加，且与"神经网络""特征选择"等关键词紧密关联，反映技术范式转移。

7 总结与展望

PTM位点预测研究已从单一特征、单算法模型向多源信息整合、复合模型方向发展。未来重点包括：开发面向稀有PTM的小样本学习（few-shot learning）和迁移学习（transfer learning）技术；深化多模态数据（序列、结构、代谢通路）融合策略；增强深度学习模型的可解释性；推动预测工具与实验验证、临床应用的闭环对接。随着DeepGlycanSite等结合位点预测新算法的涌现，PTM研究将在揭示疾病机制和药物靶点发现中发挥更大价值。

联系信箱：

粤ICP备09063491号