综述:深度学习时代的大规模蛋白质聚类

【字体: 时间:2025年06月16日 来源:Current Opinion in Structural Biology 6.1

编辑推荐:

  这篇综述系统探讨了深度学习(DL)和蛋白质语言模型(pLMs)如何革新蛋白质聚类领域,从传统序列比对(如CD-HIT、MMseqs2)到结构预测(AlphaFold2)和嵌入技术(如ESM3),揭示了跨“暗蛋白质”和病毒蛋白的远程同源关系,为功能注释和进化研究提供新范式。

  

为什么聚类蛋白质?

蛋白质聚类是解析序列与结构相似性的核心工具,通过识别同源群指导功能预测和进化研究。传统方法依赖序列比对(如BLASTp),但低于20-30%序列一致性的“黄昏区域”难以检测。结构相似性(如CATH、ECOD分类)弥补了这一局限,但受限于实验结构数量(PDB仅18万)。

经典聚类方法

序列聚类工具(CD-HIT、MMseqs2)基于贪婪算法和k
-mer匹配生成代表性集(如UniRef)。进化分析中,蛋白质序列相似网络(SSN)和多序列比对(MSA)结合隐马尔可夫模型(HMM)构建系统发育树。结构分类数据库(CATH、SCOPe)通过全对全比对(如US-align)揭示缓慢演化的结构同源性。

深度学习革命

大规模精准结构预测
AlphaFold2等工具预测了数亿结构(AFDB),Foldseek加速结构比对,Merizo自动化结构域分割。AFDB将87%无实验结构的Pfam家族关联到ECOD域,并发现349个新折叠。TED数据库拆分AFDB模型为3.71亿结构域,其中20%含1.3万个全新折叠,拓展了蛋白宇宙认知。

超越黄昏区的pLMs技术
蛋白质语言模型(如ProtBERT、ESM3)将序列转化为高维嵌入,捕获局部/全局特征。ProTrek、TM-vec等通过嵌入距离检测远程同源,尤其适用于无序区域和病毒蛋白(如BFVD中50%低置信度模型)。结构增强型pLM(ProstT5)融合序列与结构信息,而基因组上下文模型(gLM)识别功能关联和操纵子。

字母表的“不合理有效性”

Foldseek的3Di离散编码实现快速结构比对,但依赖预测质量。新兴方法(FoldToken3)压缩结构数据,支持大规模聚类。小字符集(如20种氨基酸)的高效性为亿级蛋白比对提供可能。

超越全局相似性

碎片化进化与Urfold
亚结构域片段(如“桥接主题”)揭示域起源,Urfold概念描述拓扑可变但架构相似的超家族。DeepUrfold在CATH中发现传统方法遗漏的远缘关系。

局部互作与数据集偏倚
结合位点描述符聚类揭示非全局的配体/界面相似性。深度学习模型性能受训练数据聚类策略显著影响(如PPI预测中的Transformer架构),凸显精准数据分层的必要性。

结论

深度学习推动蛋白质聚类进入新纪元,整合序列、结构和嵌入技术,从保守家族到未知折叠,系统性解码蛋白宇宙的多样性与功能潜力,为生命科学提供变革性工具。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号