综述:蛋白质翻译后修饰位点预测的计算方法系统综述

《ARCHIVES OF COMPUTATIONAL METHODS IN ENGINEERING》:A Systematic Review of Computational Methods for Protein Post-Translational Modification Site Prediction

【字体: 时间:2025年10月28日 来源:ARCHIVES OF COMPUTATIONAL METHODS IN ENGINEERING 12.1

编辑推荐:

  本综述系统回顾了2012-2024年间蛋白质翻译后修饰(PTM)位点预测领域的研究进展,重点分析了500余篇文献涵盖的36种PTM类型。文章详细梳理了PTM相关数据库资源、特征提取方法(序列特征、理化性质、结构特征等)和分类算法(支持向量机、随机森林、深度学习等),并通过CiteSpace可视化分析揭示了该领域从传统机器学习向多特征融合、复合模型发展的研究热点。特别指出深度学习技术在处理复杂PTM模式中的优势,同时对新兴PTM类型(如β-羟基丁酰化)预测面临的样本不平衡挑战提出前瞻性展望。

  

1 引言

蛋白质翻译后修饰(PTM)在调控蛋白质功能、细胞信号转导等关键生物学过程中发挥着决定性作用,其异常与神经退行性疾病、心血管疾病和癌症等多种疾病的发生发展密切相关。传统实验方法如质谱(MS)虽然精度高,但存在耗时费力、成本高昂等局限性。近年来,随着计算能力的提升和人工智能(AI)算法的发展,利用机器学习(ML)和深度学习(DL)技术从蛋白质序列中快速准确预测PTM位点,已成为实验方法的重要补充策略。

2 蛋白质翻译后修饰的综合分析

2.1 修饰类型的多样性

PTM类型极其丰富,本研究系统分析的500余篇文献覆盖了36种不同类型的PTM。其中磷酸化、泛素化、琥珀酰化、甲基化、糖基化、SUMO化、巴豆酰化和乙酰化这8类常见PTM的研究占比超过总数的一半,而新兴修饰如β-羟基丁酰化(Kbhb)、乳酸化(lactylation)等由于实验数据积累缓慢,预测模型相对稀缺。研究显示,针对新型PTM的预测研究存在明显滞后性,这主要受限于训练样本量小、序列保守性低以及需要整合结构、功能等多源信息的技术挑战。

2.2 公共数据库

PTM研究高度依赖高质量数据资源,本研究汇总了52个常用数据库,其中UniProt以20.78%的引用频率位居首位,其整合的Swiss-Prot子库提供23种PTM类型的高质量注释。专一性数据库如PLMD(专注赖氨酸修饰)和CPLM在特定修饰类型中提供更精细的数据。数据库构建通常遵循标准化流程:从数据库检索序列→去除冗余→截取固定长度窗口片段→生成正负样本→处理数据不平衡问题,为模型训练提供可靠基础。

2.3 特征提取方法分析

特征提取是PTM预测的核心环节,主要分为七大类:序列特征(Seq-Feat)、理化性质特征(PCPF)、结构特征、进化保守特征(ECF)、统计特征、信息理论特征(ITF)和深度学习特征。其中序列特征应用最广(45.61%),常用方法包括K间隔氨基酸对组成(CKSAAP)、伪氨基酸组成(PseAAC)等;深度学习特征虽占比不高(9.95%),但通过嵌入编码(embedding)、BERT等技术能自动学习复杂模式。研究趋势显示多特征融合策略显著提升模型性能。

3 分类算法总结与分析

3.1 传统机器学习方法

支持向量机(SVM)以44.42%的占比成为最主流算法,其通过核函数映射解决非线性分类问题;随机森林(RF)凭借集成学习优势占比16.98%;XGBoost、K近邻(KNN)和人工神经网络(ANN)分别占4.19%、3.72%和3.02%。这些算法在处理平衡数据集时展现良好性能,其标准流程包括:数据准备→特征提取→模型训练→验证评估→部署应用。

3.2 深度学习方法

自2017年MusiteDeep开创DL在PTM预测的先河以来,卷积神经网络(CNN)以34.30%的占比主导该领域,其擅长捕捉序列局部特征;双向长短期记忆网络(BiLSTM,8.70%)能有效处理序列依赖关系;深度神经网络(DNN,7.25%)和Transformer架构在复杂模式识别中表现突出。深度学习模型通过端到端学习自动提取特征,但在小样本场景易过拟合且可解释性较弱。

3.3 混合算法

近年来出现的混合模型(如传统ML与DL结合)通过互补优势提升预测精度。例如MIND-S模型能同时预测26种PTM类型,GPS-Lipid整合多种脂修饰预测功能。这类模型在设计时需特别注意特征对齐和算法协同问题。

3.4 不平衡PTM数据集的评估指标

针对PTM数据中修饰位点远少于非修饰位点的特性,推荐使用马修斯相关系数(MCC)、F1分数和精确召回曲线下面积(PR-AUC)等对类别不平衡不敏感的指标,避免准确率(accuracy)和ROC-AUC在 skewed 数据集上的误导性结果。

4 PTM多类别预测研究分析

多类型PTM预测工具中,MIND-S覆盖26种修饰类型最为全面,而针对2-4种修饰类型的预测模型占比达48.3%。乙酰化是研究最广泛的PTM,共有8种代表性工具;甲基化、SUMO化等也有持续研究。这些工具普遍采用多特征融合策略,如iRice-MS整合位置加权氨基酸组成(PWAA)、进化特征等11类特征,通过XGBoost实现水稻多类型PTM预测。

5 各PTM预测最新典型研究成果总结

当前研究呈现三大趋势:特征选择从单一序列特征向结构特征(如溶剂可及表面积ASA)、进化信息(如位置特异性评分矩阵PSSM)和深度学习特征(如ProtBERT)多维融合发展;算法设计从单一模型向CNN-BiLSTM-注意力机制等复合架构演进;资源建设注重在线平台开发,如MusiteDeep、DeepNitro等均提供网页服务器促进成果共享。值得注意的是,新型预测工具pFunK通过元学习(meta-learning)技术解决β-羟基丁酰化等稀有修饰的数据稀缺问题,并成功揭示ALDOB Lys108bhb修饰在酮食重塑癌症代谢中的关键作用,凸显计算预测与实验验证结合的应用价值。

6 基于CiteSpace的PTM关键词可视化分析

通过CiteSpace对2012-2024年文献的关键词聚类分析(轮廓值0.8823)识别出11个核心研究方向:氨基酸序列分析、深度学习技术、机器学习算法、支持向量机模型、通用伪氨基酸组成(PseAAC)理论、随机森林算法、增量特征选择、卷积神经网络架构、蛋白质理化性质研究、五步规则预测法和随机森林分类器应用。时序演进显示:2015年前研究集中于传统特征工程,2015年后深度学习相关节点密度显著增加,且与"神经网络""特征选择"等关键词紧密关联,反映技术范式转移。

7 总结与展望

PTM位点预测研究已从单一特征、单算法模型向多源信息整合、复合模型方向发展。未来重点包括:开发面向稀有PTM的小样本学习(few-shot learning)和迁移学习(transfer learning)技术;深化多模态数据(序列、结构、代谢通路)融合策略;增强深度学习模型的可解释性;推动预测工具与实验验证、临床应用的闭环对接。随着DeepGlycanSite等结合位点预测新算法的涌现,PTM研究将在揭示疾病机制和药物靶点发现中发挥更大价值。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号