编辑推荐:
蛋白质复合物检测在理解细胞机制和药物发现中至关重要。现有方法在整合基因本体论(GO)功能信息方面不足。研究人员提出基于多目标优化的模型及功能相似性蛋白易位算子(FS-PTO),实验表明该算法优于现有方法,为 PPI 网络分析提供新方向。
在生命科学领域,解析蛋白质 - 蛋白质相互作用(PPI)网络中蛋白质复合物的结构与功能,一直是理解细胞运作机制和推动药物研发的关键课题。然而,传统方法在检测蛋白质复合物时,往往面临两大挑战:一是难以有效整合基因本体论(Gene Ontology,GO)等生物功能信息,导致对功能模块的识别不够精准;二是在处理含噪声的 PPI 网络时,算法的鲁棒性不足,容易遗漏小而稀疏的功能模块。此外,现有多数算法聚焦于拓扑结构分析,忽略了蛋白质功能相似性等关键生物学特征,限制了对复杂生物系统的全面理解。
为突破这些瓶颈,德国奥托 - 冯 - 格里克大学(Otto-von-Guericke-University)的研究人员开展了一项创新性研究。他们提出一种基于多目标进化算法(Multi-Objective Evolutionary Algorithm,MOEA)的蛋白质复合物检测模型,并引入基于 GO 的功能相似性蛋白易位算子(Functional Similarity-Based Protein Translocation Operator,FS-PTO)。该研究成果发表在《Scientific Reports》上,为蛋白质复合物的精准识别提供了新的方法论。
研究团队采用的核心技术方法包括:首先,将蛋白质复合物检测问题建模为多目标优化问题,同时优化复合物的内部语义一致性(Intra-Complex Semantic,ICSIntra)和复合物间的语义分离性(Inter-Complex Semantic,ICSInter),以平衡拓扑结构与生物功能的冲突目标;其次,设计 FS-PTO 算子,通过计算蛋白质与复合物的功能相似性(基于 GO 注释的语义相似性矩阵),动态调整蛋白质的归属,增强复合物的功能 coherence;最后,在酵母(Saccharomyces cerevisiae)的 PPI 网络(Yeast-D1 和 Yeast-D2)及人工噪声网络中,结合慕尼黑蛋白质序列信息中心(MIPS)的基准数据集,通过召回率(Recall)、精确率(Precision)和 F 分数(F-score)等指标评估算法性能。
研究结果
多目标模型的有效性验证
在标准 PPI 网络数据集上,该算法与 MCODE、MCL 等传统启发式方法及 EA-CS、MOEA/D 等进化算法相比,展现出更高的检测精度。例如,在 Yeast-D1 数据集上,其 F-score 达到 0.8209,显著优于单一拓扑指标优化的算法(如 EA-CS 的 F-score 为 0.6514)。通过同时优化 ICSIntra和 ICSInter,模型能够识别出兼具紧密拓扑连接和高度功能相似性的复合物,解决了传统方法依赖单一目标的局限性。
FS-PTO 算子的关键作用
实验表明,引入 FS-PTO 算子后,算法对弱连接蛋白(功能相似性低的蛋白质)的重分配能力显著提升。在含 50% 噪声的人工网络中,该算子使算法的 F-score 保持在 0.84 左右,而缺乏 GO 信息的对照算法(如 MOEA/D)性能显著下降(F-score 降至 0.65 以下)。这证实了 GO 功能信息在抵抗噪声干扰、增强复合物功能一致性方面的关键作用。
跨数据集与噪声场景的鲁棒性
在不同噪声水平(10%-50%)和不同网络规模(Yeast-D1 含 990 蛋白,Yeast-D2 含 1443 蛋白)的测试中,该算法均表现出稳定的性能。例如,在随机添加噪声的 Yeast-D2 网络中,其召回率始终维持在 0.88 以上,表明算法对真实生物网络中普遍存在的假阳性和假阴性相互作用具有较强的容错能力。
结论与意义
本研究首次将多目标优化与 GO 功能信息深度整合,提出了一种兼具拓扑与功能维度的蛋白质复合物检测框架。通过 FS-PTO 算子的创新设计,解决了传统算法在功能模块识别和噪声鲁棒性方面的双重缺陷。实验结果表明,该模型在酵母 PPI 网络中能更精准地识别具有生物学意义的复合物,为解析疾病相关蛋白质模块、预测药物作用靶点提供了新工具。其方法论为多组学数据整合分析提供了范例,有望推动从 “结构驱动” 到 “功能 - 结构协同驱动” 的生物网络分析范式转变,在癌症靶点发现、细胞信号通路解析等领域具有广泛应用前景。