基于多模态深度学习的蛋白质互作组推断新方法FREEPII:从特征表征到完整互作网络的端到端学习
《GigaScience》:Complete end-to-end learning from protein feature representation to protein interactome inference
【字体:
大
中
小
】
时间:2025年11月07日
来源:GigaScience 3.9
编辑推荐:
本研究针对传统共馏分质谱(CF-MS)分析流程依赖手工特征、对实验噪声敏感且局限于二元互作识别等问题,开发了名为FREEPII的端到端深度学习框架。该模型整合CF-MS数据和序列衍生特征,通过卷积神经网络(CNN)学习具有生物学意义的蛋白质表征,显著提升了蛋白质-蛋白质相互作用(PPI)和蛋白质复合物推断的准确性与泛化能力。实验表明FREEPII在人类和酵母数据集上均优于现有主流工具,为跨物种蛋白质互作研究提供了可扩展的计算新策略。
在细胞生命活动的精密调控网络中,蛋白质-蛋白质相互作用(PPI)犹如交响乐团的默契配合,决定着生物过程的节奏与和谐。然而,绘制这幅错综复杂的互作图谱始终面临巨大挑战。传统研究方法如酵母双杂交(Y2H)只能检测二元互作,且受限于异源表达环境;亲和纯化质谱(AP-MS)虽能平行分析多个互作,但需要抗体或基因工程修饰,可能改变蛋白质天然结构。共馏分耦合质谱(CF-MS)技术的出现,为在近生理条件下大规模绘制蛋白质互作网络带来了曙光,但现有分析方法仍受限于手工特征提取、实验噪声干扰以及难以捕捉高阶互作模式等瓶颈。
为解决这些难题,发表在《GigaScience》上的研究提出了FREIPII(特征表征增强端到端蛋白质相互作用推断)框架。这一创新方法通过深度融合CF-MS数据和蛋白质序列信息,实现了从原始数据到互作网络推断的完整学习流程。
研究团队采用了几项关键技术:首先,他们收集了多个人类和酵母CF-MS数据集(包括PXD002892、PXD014820等),并对蛋白质序列进行混沌游戏表示(FCGR)编码;其次,设计了包含嵌入层、卷积层和全连接层的神经网络架构,通过蛋白质水平表征共享机制大幅降低计算复杂度;此外,开发了结合马尔可夫聚类(MCL)和拓扑重叠矩阵(TOM)的聚类算法,用于蛋白质复合物识别;最后,采用复合评分、GOGO功能相似性评分和共定位评分等多项指标系统评估预测结果的生物学一致性。
在与现有CF-MS分析工具(如EPIC和SPIFFED)的基准测试中,FREEPII在人类和酵母数据集上均表现出卓越的预测性能。在敏感性、特异性、马修斯相关系数(MCC)和接收者操作特征曲线下面积(AUC)等多项指标上,FREEPII均显著优于对比方法。消融实验进一步证实了各组件贡献:仅使用CF-MS数据的CNN模型已超越传统随机森林(RF)模型,加入序列输入后敏感性进一步提升,而蛋白质嵌入则同时增强了敏感性和特异性。
FREEPII从CF-MS数据和蛋白质序列中提取判别能力
通过显著性映射分析发现,FREEPII能够灵活调整对两种输入数据的依赖程度。对于大多数蛋白质相互作用,模型平衡利用CF-MS和序列特征;而当CF-MS信号占主导时,模型更关注早期洗脱组分(相互作用蛋白通常形成较大组装体);当预测主要依赖序列信息时,CF-MS输入贡献较小,表明在某些情况下相互作用相关信息直接嵌入在蛋白质一级序列中。
FREEPII通过多模态和嵌入引导学习捕获高阶互作模式
t-SNE可视化显示,仅使用序列的模型(CNN-S)产生的表征与复合物注释对齐较差;加入蛋白质嵌入(CNN-SE)后,表征空间组织明显改善,复合物内部分组更紧密;而整合了CF-MS数据的FREEPII进一步优化了特征空间,复合物间分离更清晰。余弦距离分析支持了这一观察,FREEPII显著降低了复合物内蛋白质对之间的距离。
FREEPII以优越的结构、功能和空间一致性聚类蛋白质
在蛋白质复合物识别方面,FREEPII在复合评分中表现最佳,表明其结构分辨率更高。功能一致性评估(GOGO评分)显示,FREEPII在几乎所有人类数据集和酵母生物过程本体中都优于竞争模型。亚细胞共定位分析进一步证实,FREEPII预测的聚类与已知亚细胞定位模式高度一致。
FREEPII成功识别已知和新颖的生物学相关蛋白质复合物
案例研究显示,FREEPII能准确重建标准复合物(如人类Mediator复合物和酵母 cytoplasmic ribosomal large subunit),且在不同生物学重复间保持高度一致性。同时,FREEPII还预测了未在黄金标准中注释但得到独立实验支持的新型复合物,如包含RNQ1、PBP1、PBP4等蛋白质的聚类,其中PBP1、PBP4和LSM12间的相互作用已有文献报道。
跨数据集实验表明,当训练数据包含不同物种和分辨率的CF-MS数据集时,CNN模型的泛化能力显著提升。FREEPII(-)(无嵌入组件版本)在最具多样性的训练组合上取得了最高MCC,明显优于仅使用CF-MS数据的CNN-C和基于手工特征的RF-C模型,凸显了多模态数据整合对跨物种蛋白质相互作用推断的价值。
研究结论表明,FREEPII建立了一个统一的计算框架,通过整合多模态生物数据学习判别性蛋白质表征,支持准确的PPI分类和生物学一致的蛋白质复合物推断。其架构设计(包括残差连接和模态感知输入处理)有助于训练稳定性,而监督蛋白质嵌入则整合了来自复合物注释的高阶互作文境。跨实验设置的强泛化能力和敏感性凸显了该集成多模态设计和数据驱动特征学习方法在可扩展、跨物种蛋白质相互作用推断中的有效性。
该研究的创新之处在于将蛋白质水平表征学习引入CF-MS数据分析,通过端到端架构实现了从原始数据到互作网络的直接映射。与之前工作相比,FREEPII不仅提高了计算效率(将复杂度从O(N2M)降至O(NM)),还通过多模态整合增强了模型对弱信号的敏感性。研究还通过AlphaFold Multimer评估证实了预测聚类在结构上的合理性,为数据驱动的蛋白质相互作用网络探索提供了灵活可扩展的基础。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号