综述:蛋白质翻译后修饰位点预测的计算方法系统综述
《ARCHIVES OF COMPUTATIONAL METHODS IN ENGINEERING》:A Systematic Review of Computational Methods for Protein Post-Translational Modification Site Prediction
【字体:
大
中
小
】
时间:2025年10月28日
来源:ARCHIVES OF COMPUTATIONAL METHODS IN ENGINEERING 12.1
编辑推荐:
本综述系统回顾了2012-2024年间蛋白质翻译后修饰(PTM)位点预测领域的研究进展,重点分析了500余篇文献涵盖的36种PTM类型。文章详细梳理了PTM相关数据库资源、特征提取方法(序列特征、理化性质、结构特征等)和分类算法(支持向量机、随机森林、深度学习等),并通过CiteSpace可视化分析揭示了该领域从传统机器学习向多特征融合、复合模型发展的研究热点。特别指出深度学习技术在处理复杂PTM模式中的优势,同时对新兴PTM类型(如β-羟基丁酰化)预测面临的样本不平衡挑战提出前瞻性展望。
1 引言
蛋白质翻译后修饰(PTM)在调控蛋白质功能、细胞信号转导等关键生物学过程中发挥着决定性作用,其异常与神经退行性疾病、心血管疾病和癌症等多种疾病的发生发展密切相关。传统实验方法如质谱(MS)虽然精度高,但存在耗时费力、成本高昂等局限性。近年来,随着计算能力的提升和人工智能(AI)算法的发展,利用机器学习(ML)和深度学习(DL)技术从蛋白质序列中快速准确预测PTM位点,已成为实验方法的重要补充策略。
2 蛋白质翻译后修饰的综合分析
2.1 修饰类型的多样性
PTM类型极其丰富,本研究系统分析的500余篇文献覆盖了36种不同类型的PTM。其中磷酸化、泛素化、琥珀酰化、甲基化、糖基化、SUMO化、巴豆酰化和乙酰化这8类常见PTM的研究占比超过总数的一半,而新兴修饰如β-羟基丁酰化(Kbhb)、乳酸化(lactylation)等由于实验数据积累缓慢,预测模型相对稀缺。研究显示,针对新型PTM的预测研究存在明显滞后性,这主要受限于训练样本量小、序列保守性低以及需要整合结构、功能等多源信息的技术挑战。
2.2 公共数据库
PTM研究高度依赖高质量数据资源,本研究汇总了52个常用数据库,其中UniProt以20.78%的引用频率位居首位,其整合的Swiss-Prot子库提供23种PTM类型的高质量注释。专一性数据库如PLMD(专注赖氨酸修饰)和CPLM在特定修饰类型中提供更精细的数据。数据库构建通常遵循标准化流程:从数据库检索序列→去除冗余→截取固定长度窗口片段→生成正负样本→处理数据不平衡问题,为模型训练提供可靠基础。
2.3 特征提取方法分析
特征提取是PTM预测的核心环节,主要分为七大类:序列特征(Seq-Feat)、理化性质特征(PCPF)、结构特征、进化保守特征(ECF)、统计特征、信息理论特征(ITF)和深度学习特征。其中序列特征应用最广(45.61%),常用方法包括K间隔氨基酸对组成(CKSAAP)、伪氨基酸组成(PseAAC)等;深度学习特征虽占比不高(9.95%),但通过嵌入编码(embedding)、BERT等技术能自动学习复杂模式。研究趋势显示多特征融合策略显著提升模型性能。
3 分类算法总结与分析
3.1 传统机器学习方法
支持向量机(SVM)以44.42%的占比成为最主流算法,其通过核函数映射解决非线性分类问题;随机森林(RF)凭借集成学习优势占比16.98%;XGBoost、K近邻(KNN)和人工神经网络(ANN)分别占4.19%、3.72%和3.02%。这些算法在处理平衡数据集时展现良好性能,其标准流程包括:数据准备→特征提取→模型训练→验证评估→部署应用。
3.2 深度学习方法
自2017年MusiteDeep开创DL在PTM预测的先河以来,卷积神经网络(CNN)以34.30%的占比主导该领域,其擅长捕捉序列局部特征;双向长短期记忆网络(BiLSTM,8.70%)能有效处理序列依赖关系;深度神经网络(DNN,7.25%)和Transformer架构在复杂模式识别中表现突出。深度学习模型通过端到端学习自动提取特征,但在小样本场景易过拟合且可解释性较弱。
3.3 混合算法
近年来出现的混合模型(如传统ML与DL结合)通过互补优势提升预测精度。例如MIND-S模型能同时预测26种PTM类型,GPS-Lipid整合多种脂修饰预测功能。这类模型在设计时需特别注意特征对齐和算法协同问题。
3.4 不平衡PTM数据集的评估指标
针对PTM数据中修饰位点远少于非修饰位点的特性,推荐使用马修斯相关系数(MCC)、F1分数和精确召回曲线下面积(PR-AUC)等对类别不平衡不敏感的指标,避免准确率(accuracy)和ROC-AUC在 skewed 数据集上的误导性结果。
4 PTM多类别预测研究分析
多类型PTM预测工具中,MIND-S覆盖26种修饰类型最为全面,而针对2-4种修饰类型的预测模型占比达48.3%。乙酰化是研究最广泛的PTM,共有8种代表性工具;甲基化、SUMO化等也有持续研究。这些工具普遍采用多特征融合策略,如iRice-MS整合位置加权氨基酸组成(PWAA)、进化特征等11类特征,通过XGBoost实现水稻多类型PTM预测。
5 各PTM预测最新典型研究成果总结
当前研究呈现三大趋势:特征选择从单一序列特征向结构特征(如溶剂可及表面积ASA)、进化信息(如位置特异性评分矩阵PSSM)和深度学习特征(如ProtBERT)多维融合发展;算法设计从单一模型向CNN-BiLSTM-注意力机制等复合架构演进;资源建设注重在线平台开发,如MusiteDeep、DeepNitro等均提供网页服务器促进成果共享。值得注意的是,新型预测工具pFunK通过元学习(meta-learning)技术解决β-羟基丁酰化等稀有修饰的数据稀缺问题,并成功揭示ALDOB Lys108bhb修饰在酮食重塑癌症代谢中的关键作用,凸显计算预测与实验验证结合的应用价值。
6 基于CiteSpace的PTM关键词可视化分析
通过CiteSpace对2012-2024年文献的关键词聚类分析(轮廓值0.8823)识别出11个核心研究方向:氨基酸序列分析、深度学习技术、机器学习算法、支持向量机模型、通用伪氨基酸组成(PseAAC)理论、随机森林算法、增量特征选择、卷积神经网络架构、蛋白质理化性质研究、五步规则预测法和随机森林分类器应用。时序演进显示:2015年前研究集中于传统特征工程,2015年后深度学习相关节点密度显著增加,且与"神经网络""特征选择"等关键词紧密关联,反映技术范式转移。
7 总结与展望
PTM位点预测研究已从单一特征、单算法模型向多源信息整合、复合模型方向发展。未来重点包括:开发面向稀有PTM的小样本学习(few-shot learning)和迁移学习(transfer learning)技术;深化多模态数据(序列、结构、代谢通路)融合策略;增强深度学习模型的可解释性;推动预测工具与实验验证、临床应用的闭环对接。随着DeepGlycanSite等结合位点预测新算法的涌现,PTM研究将在揭示疾病机制和药物靶点发现中发挥更大价值。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号