编辑推荐:
在蛋白质研究中,SUMO 化修饰对蛋白质功能至关重要且与神经退行性疾病相关。研究人员开展 XGBoost-Sumo 模型预测 SUMO 化位点的研究,该模型融合多种特征,经多方法验证,准确性高达 99.68%,为药物研发提供有力支持。
在微观的细胞世界里,蛋白质就像一个个忙碌的 “小工匠”,承担着各种重要使命,比如作为酶参与化学反应、构成细胞的结构框架、调控基因表达以及调节免疫反应等。不过,蛋白质要想正常发挥功能,还需要经历一些特殊的 “加工” 过程,其中一种重要的 “加工” 方式就是翻译后修饰(Posttranslational Modification,PTM)。SUMO 化修饰作为 PTM 中的一员,是指将一种化学基团连接到蛋白质序列上,它在调节细胞活动,如核质运输、转录、DNA 修复和蛋白质相互作用等方面,都扮演着关键角色。而且,SUMO 化修饰还与帕金森病、阿尔茨海默病等神经退行性疾病的病理机制紧密相连,这些疾病往往伴随着蛋白质错误折叠和细胞内稳态失衡等问题。
目前,虽然已经有不少研究聚焦 SUMO 化修饰,也开发出了一些预测 SUMO 化位点的生物信息学工具和计算模型,像 SUMOsp、GPS-SUMO、SUMOPre 等。但这些模型大多存在局限性,比如传统学习方法依赖特征提取和线性数据集,在处理复杂数据时表现不佳。所以,为了更精准地预测 SUMO 化位点,来自沙特国王大学(King Saud University)、普渡大学(Purdue University)等多个机构的研究人员开展了一项研究,相关成果发表在《BioData Mining》上。
研究人员提出了一种名为 XGBoost-Sumo 的新型计算模型。为了构建这个模型,研究人员使用了多种关键技术方法。在数据处理上,他们从 Compendium of Protein Lysine Modification(CPLM)数据库选取数据构建基准数据集,并利用 Near Miss 算法进行数据平衡处理。在特征提取阶段,采用了 Position-specific scoring Matrix(PSSM)、Pseudo-PSSM(PsePSSM)、Discrete Wavelet transform(DWT)以及 Bidirectional encoder representations from transformers(BERT)等方法,将肽序列转化为特征向量 。之后,运用 SHapley Additive exPlanations(SHAP)算法进行特征选择,最后使用 eXtreme Gradient Boosting(XGBoost)进行分类。
下面来看看具体的研究结果:
- 模型性能分析:研究人员通过 5 折交叉验证和 10 折交叉验证评估模型性能。结果显示,XGBoost 模型在使用混合特征时比单独使用 PsePSSM-DWT 和 BERT 特征表现更优。例如,在 10 折交叉验证中,使用混合特征且经过特征选择后,模型准确率达到 99.68%,AUC 值为 0.998,MCC 值为 0.994。这表明 XGBoost-Sumo 模型在预测 SUMO 化位点方面具有很高的准确性和稳定性123。
- 与其他模型对比:将 XGBoost-Sumo 模型与其他常用机器学习方法(如 K-Nearest Neighbor(KNN)、Linear Regression(LR)、Random Forest(RF)、Support Vector Machine(SVM)和 Naive Bayes(NB))以及现有基准模型(如 pSumo-CD、HseSUMO、Deep-Sumo、PSSM-Sumo)进行对比。结果表明,XGBoost-Sumo 模型在准确率和 MCC 值等指标上均优于其他模型。在独立数据集测试中,XGBoost-Sumo 模型准确率达到 96.08%,同样高于其他模型,充分证明了该模型的优越性456。
研究结论和讨论部分指出,XGBoost-Sumo 模型在准确识别 SUMO 化位点方面表现出了卓越的可靠性,其使用的优化学习算法和复杂的特征提取方法使其超越了该领域之前的模型。通过 10 折交叉验证,该模型在实际应用中展现出了良好的泛化性能。此外,与其他流行机器学习方法的对比测试,也突出了它在 SUMO 化位点预测上的独特优势,能够实现更精确的预测。这一研究成果为蛋白质 SUMO 化修饰的研究提供了新的有力工具,有助于深入了解 SUMO 化修饰在生物过程中的作用机制,也为相关疾病的药物研发开辟了新的方向,有望推动针对帕金森病、阿尔茨海默病等疾病的治疗药物的开发进程。