
-
生物通官微
陪你抓住生命科技
跳动的脉搏
FoldExplorer:基于序列增强图嵌入的蛋白质结构快速精准搜索新方法
【字体: 大 中 小 】 时间:2025年09月01日 来源:Journal of Molecular Biology 4.5
编辑推荐:
【编辑推荐】本文提出FoldExplorer深度学习框架,创新性融合图注意力网络(GNN)与蛋白质语言模型(PLM),通过对比学习生成兼具结构与序列信息的蛋白质嵌入向量。该方法在几何相似性搜索和分类任务中超越现有深度学习及序列方法(如TM-align/Dali),对低置信度预测结构仍保持高效检索能力,为大规模蛋白质结构数据库(如AlphaFold DB)搜索提供新范式。
亮点
FoldExplorer通过学习蛋白质空间分布实现高效检索。在蛋白质结构搜索任务中,传统基于比对的方法(如TM-align)仅能提供结构间距离概念,而基于表征的方法将蛋白质映射到高维空间的可视化坐标,形成完整的"蛋白质宇宙"视图。FoldExplorer生成的嵌入空间能清晰展示不同折叠类型的聚类边界,为研究蛋白质进化关系和功能分类提供新视角。
结论
蛋白质结构的爆炸式增长亟需可扩展的精准搜索工具。FoldExplorer通过图注意力网络与蛋白质语言模型(ESM2)的协同整合,采用对比学习框架生成高信息密度的蛋白质嵌入向量。实验表明,该方法在多个评估指标上超越现有技术(包括SGM/SSEF等手工描述符和DeepFold/GraSR等深度学习方法),尤其对低置信度预测结构的检索鲁棒性显著。其毫秒级的单结构搜索速度,使214M规模的AlphaFold DB全库搜索可在数小时内完成。
基准数据集
本研究采用SCOPe 2.07(2018年3月版)作为基准数据集。为消除序列相似性对结构比较的干扰,仅保留序列一致性<40%的14,323个蛋白质结构域。参照基线方法相同筛选标准,最终获得13,265个蛋白质域(详见附录S2),并按5:2:3划分为训练集/验证集/测试集。
生物通微信公众号
知名企业招聘