Feature fusion with attributed deepwalk:蛋白质 - 蛋白质相互作用预测的创新策略

【字体: 时间:2025年04月11日 来源:Scientific Reports 3.8

编辑推荐:

  在蛋白质 - 蛋白质相互作用(PPIs)研究中,为解决现有计算方法依赖单一特征或简单拼接的问题,研究人员开展 FFADW(Feature Fusion Method with Attributed DeepWalk)方法研究。结果表明该方法能提升样本聚类效果,在多数据集上优于现有方法,为 PPI 预测提供新途径。

  在生命的微观世界里,蛋白质就像一个个忙碌的 “小工匠”,它们之间的相互作用(Protein - Protein Interactions,PPIs)至关重要,参与着细胞内各种活动,如信号传导、细胞通讯和代谢调节等。一旦这些 “小工匠” 之间的合作出现异常,就可能引发各种疾病,像癌症、心血管疾病等。因此,搞清楚蛋白质之间的相互作用关系,对于理解疾病发生机制和开发治疗策略意义重大。
目前,虽然有一些传统实验方法可以检测 PPIs,比如免疫共沉淀(Co - Immunoprecipitation,Co - IP)、酵母双杂交(Yeast Two - Hybrid,Y2H)系统和蛋白质交联技术等,但这些方法存在成本高、操作繁琐、耗时长以及结果可靠性低等问题。于是,计算方法成为了研究 PPIs 的新希望。不过,现有的计算方法也有自己的 “小毛病”,有的只依赖单一特征类型,有的只是简单地将不同特征拼接在一起,这样很可能无法全面捕捉蛋白质相互作用的复杂本质。

在这样的背景下,马来西亚国民大学(Universiti Kebangsaan Malaysia)的研究人员 Mei - Yuan Cao、Suhaila Zainudin 和 Kauthar Mohd Daud 开展了一项关于蛋白质 - 蛋白质相互作用预测的研究。他们提出了一种名为 FFADW(Feature Fusion Method with Attributed DeepWalk)的新方法,该方法通过加权融合策略,巧妙地整合了蛋白质的序列和网络特征。研究结果显示,FFADW 在多个数据集上都表现出色,显著提升了样本聚类效果,预测性能优于现有的其他方法。这一研究成果发表在《Scientific Reports》上,为蛋白质 - 蛋白质相互作用的研究提供了新的思路和方法,有助于推动生命科学和医学领域的发展。

研究人员在研究过程中用到了几个主要关键的技术方法。首先是数据处理与特征提取,从不同数据库收集蛋白质 - 蛋白质相互作用(PPI)数据和序列信息,利用高斯核(Gaussian kernel)和莱文斯坦距离(Levenshtein distance)分别衡量网络相似性和序列相似性。接着是特征融合,通过加权融合策略构建综合信息融合矩阵。最后是模型训练与评估,运用多种分类器进行训练,并使用交叉验证技术确保模型性能。

下面来看看具体的研究结果:

  • 评估指标与实验设置:将预测结果分为真阳性(True Positive,TP)、真阴性(True Negative,TN)、假阳性(False Positive,FP)和假阴性(False Negative,FN)四种情况,基于此计算准确率、灵敏度(recall)、精确率和 F1 分数等指标,并绘制受试者工作特征曲线(Receiver Operating Characteristic,ROC)和计算曲线下面积(Area Under the Curve,AUC)。实验在酿酒酵母(S. cerevisiae)、幽门螺杆菌(H. pylori)和人类(Human)三个数据集上进行,采用交叉验证和网格搜索调整参数 α 。
  • FFADW 使用不同分类器的性能:在三个数据集上评估了 Naive Bayes(NB)、支持向量机(Support Vector Machine,SVM)、随机森林(Random Forest,RF)和 XGBoost(XGB)四种分类器。结果表明,XGB 在多个数据集上表现最佳,SVM 也有不错的表现,而 RF 和 NB 相对较弱。
  • 与现有方法的比较分析:将 FFADW 结合 XGB 与 HNSPPI、GcForest - PPI 等现有方法对比。在酿酒酵母、人类和幽门螺杆菌数据集上,FFADW(XGB)的准确率等指标都优于大多数现有方法,但在幽门螺杆菌数据集上由于数据量较小可能存在过拟合问题。
  • 数据可视化:利用 t - SNE 算法对数据进行可视化,发现融合序列和网络特征后,正、负样本的聚类效果明显改善,但要找到两者的最佳平衡,仅依赖单一特征会导致样本聚类效果变差。

研究结论和讨论部分指出,FFADW 通过整合序列和网络信息,提升了 PPI 预测性能。不同数据集的最佳特征融合比例不同,XGBoost 在处理融合特征时表现更优。该方法采用传统机器学习方法,具有更好的可解释性和计算效率。不过,FFADW 也存在一些局限性,如融合参数需手动选择,对大规模数据集的扩展性有限。未来可探索自适应机制确定融合权重,或将其与深度学习模型结合,进一步提升方法的性能,为蛋白质相互作用分析提供更强大的工具,助力人们深入理解细胞过程和疾病机制。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号