SPACE:基于STRING数据库的跨物种蛋白质网络嵌入与序列嵌入互补研究

【字体: 时间:2025年09月10日 来源:Bioinformatics 5.4

编辑推荐:

  本研究针对蛋白质网络嵌入在跨物种机器学习中的挑战,开发了SPACE(STRING Proteins as Complementary Embeddings)系统。研究人员通过整合STRING数据库中1,322种真核生物的蛋白质网络和orthology关系,采用node2vec和FedCoder技术生成512维跨物种网络嵌入,并与ProtT5序列嵌入互补。结果表明,这种组合嵌入在亚细胞定位预测和蛋白质功能预测任务中显著优于单一嵌入方法,为大规模跨物种蛋白质研究提供了新工具。相关资源已在STRING 12.0平台开放获取。

  

在人工智能与生物信息学的交叉领域,蛋白质表征学习正经历着革命性变革。虽然基于序列的蛋白质语言模型(如ProtT5和ESM2)已能高效捕捉蛋白质结构域和motif信息,但蛋白质相互作用网络(PPI)所蕴含的功能关联信息仍难以在跨物种场景中被有效利用。STRING数据库作为包含12,535个物种PPI网络的权威资源,其跨物种比较潜力因技术瓶颈尚未充分释放——当node2vec等算法分别应用于不同物种网络时,生成的嵌入向量缺乏可比性,这直接阻碍了网络信息在预测任务中的迁移应用。

针对这一挑战,来自哥本哈根大学和瑞士生物信息学研究所的Dewei Hu团队在《Bioinformatics》发表了创新性研究SPACE。该工作创造性地将FedCoder多网络对齐框架引入生物领域,通过eggNOG 6.0的orthology关系作为锚点,首次实现了1,322种真核生物蛋白质网络嵌入的大规模对齐。更巧妙的是,研究者设计了三级策略处理网络中的孤立蛋白(singletons):对具有互作orthologs的蛋白采用噪声添加的平均嵌入;对仅含singletons的orthologous groups(OGs)分配极值区间的随机嵌入;完全孤立的蛋白则赋予唯一性嵌入。这种精细处理确保了STRING全库蛋白质都能获得有意义的网络表征。

关键技术方法包括:1)基于STRING 12.0和eggNOG 6.0构建包含1,322个真核生物物种的数据集;2)使用加权node2vec生成128维物种特异性网络嵌入;3)采用改进的FedCoder框架分步对齐48个seed species和1,274个non-seed species的嵌入空间;4)通过ProtT5-XL-UniRef50模型生成1024维序列嵌入;5)使用KEGG通路共成员分析和下游预测任务验证嵌入质量。

SPACE: Pre-calculated sequence and cross-species network embeddings

研究团队构建的SPACE系统包含两个核心组件:通过node2vec生成的物种特异性网络嵌入(128维),以及经FedCoder对齐后的跨物种嵌入(512维)。可视化分析显示,人类(H. sapiens)、酵母(S. cerevisiae)、拟南芥(A. thaliana)和盘基网柄菌(D. discoideum)等演化差异显著的物种蛋白在UMAP降维空间中呈现有意义的重叠分布,而挪威大鼠(R. norvegicus)的嗅觉蛋白则形成独特簇群,证明对齐过程既保留了功能保守性又识别了物种特异性。

SPACE embeddings maintain pathway integrity

通过KEGG通路验证发现,对齐后的嵌入在12个代表性物种中基本保持甚至提升了原始node2vec嵌入的通路信号捕获能力。特别在人类(H. sapiens)和盘基网柄菌(D. discoideum)中,对齐嵌入的partial AUC(pAUC)显著优于原始嵌入;仅酿酒酵母(S. cerevisiae)因本身网络质量极高出现轻微下降。统计检验证实,对齐嵌入在除真菌外的所有生物界中都显著优于ProtT5序列嵌入。

Combining embeddings improves cross-species subcellular localization prediction

在DeepLoc 2.0数据集测试中,串联网络与序列的SPACE嵌入展现出显著优势。对于溶酶体/液泡、高尔基体和过氧化物酶体等复杂定位的预测,网络嵌入的补充信息尤为关键——这些细胞器的靶向机制涉及多步骤信号(如M6P修饰、PTS1/PTS2信号肽)和共享运输复合物(如PEX蛋白),其功能关联在网络中得以更好体现。UMAP可视化显示,核、线粒体和细胞膜等主要区室的蛋白质在嵌入空间形成明显簇群,余弦相似度分析证实相同定位蛋白的相似性显著更高(P<10-11)。

Combining embeddings enhances cross-species protein function prediction

在NetGO 2.0的GO注释预测任务中,SPACE嵌入表现出差异化优势:分子功能预测主要依赖序列嵌入;生物过程预测则显著受益于网络嵌入的补充;细胞组分预测在较高召回率区间(>0.6)获得提升。这种模式与不同GO层面的生物学本质高度一致——分子功能更多由蛋白结构域决定,而生物过程则强烈依赖蛋白质相互作用网络。

这项研究的突破性在于首次实现了超大规模(1,322物种)蛋白质网络嵌入的跨物种对齐,并通过严谨设计确保:1)对齐过程不损失原始网络信息;2)序列与网络嵌入形成功能互补;3)所有蛋白质(包括singletons)都能获得有效表征。研究者已将全部嵌入开源整合至STRING 12.0平台,为宿主-病原体互作研究、跨物种功能注释等应用提供了强大基础工具。未来工作可探索该框架在原核生物中的应用,或结合最新图神经网络(GNN)进一步提升嵌入质量。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号