基于统计矩的蛋白质磷酸甘油酰化位点高效识别技术研究

【字体: 时间:2025年06月13日 来源:Journal of Molecular Graphics and Modelling 2.7

编辑推荐:

  本研究针对磷酸甘油酰化(pgK)位点识别难题,提出一种名为SMPP(统计矩理化属性)的新型特征提取技术,结合支持向量机(SVM)构建预测模型。实验显示,该模型在10倍交叉验证中准确率达98.26%,独立测试集达99.40%,显著优于现有方法,为心血管疾病等PTM相关机制研究提供高效工具。

  

在生命科学领域,翻译后修饰(PTM)如同蛋白质的“化学化妆师”,通过共价修饰调控细胞功能。其中,新发现的赖氨酸磷酸甘油酰化(pgK)因与糖酵解酶活性及心血管疾病、神经系统退行性病变密切相关而备受关注。然而,现有磷酸甘油酰化位点识别技术存在特征提取效率低、预测精度不足等问题,制约了相关疾病机制研究。

为解决这一难题,来自国内的研究团队开发了基于统计矩理化属性(SMPP)的创新特征提取技术。该方法通过计算氨基酸理化属性的统计矩(如均值、方差等),将蛋白质序列转化为高区分度的数值特征,再结合支持向量机(SVM)构建预测模型。研究采用PLMD数据库的134条蛋白序列,通过窗口大小优化(7-31残基)确定最佳特征维度。

关键技术方法

  1. SMPP特征编码:整合21种氨基酸理化属性与统计矩算法
  2. 机器学习建模:SVM分类器配合10倍交叉验证
  3. 性能对比实验:与PWM、CKSAAP等7种现有方法比较

Benchmark Dataset
从PLMD数据库收集的134条含pgK位点的蛋白序列,通过CD-HIT去除同源性>40%的序列,最终构建平衡数据集。

Selection of Optimal Window Size
窗口大小测试表明,当中心赖氨酸(K)上下游各延伸13个残基(总窗口27)时,模型达到峰值性能,验证了局部序列环境对修饰位点识别的关键作用。

Conclusion
SMPP技术首次将统计矩应用于PTM特征提取,其98.26%的交叉验证准确率刷新了领域记录。该成果不仅为pgK相关疾病诊断提供新工具,其通用性设计还可拓展至其他PTM类型研究。

这项发表于《Journal of Molecular Graphics and Modelling》的工作,由Md. Sohrawordi等学者完成,所有数据和代码已开源。研究团队特别指出,SMPP对少量样本仍保持高鲁棒性,这对数据稀缺的新发现PTM研究具有重要价值。未来或可通过整合深度学习进一步提升模型可解释性。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号