大规模蛋白质数据库揭示结构互补性与功能定位性:蛋白质宇宙的统一框架

【字体: 时间:2025年08月27日 来源:Nature Communications 15.7

编辑推荐:

  本研究针对当前海量蛋白质结构数据缺乏统一分析框架的问题,整合AlphaFold数据库(AFDB)、ESMAtlas高质量子集和微生物免疫计划(MIP)三大数据库,通过Foldseek结构聚类和Geometricus低维嵌入技术,首次构建了包含150万非冗余结构的蛋白质宇宙图谱。研究发现三大数据库在结构空间呈现互补分布(结构互补性),而高级生物学功能在特定区域聚集(功能定位性),开发了开放访问的探索平台,为蛋白质序列-结构-功能关系研究提供了全新范式。

  

近年来,人工智能革命彻底改变了结构生物学领域——AlphaFold2的横空出世使得高精度蛋白质结构预测成为现实,ESMFold等工具进一步将预测范围扩展到宏基因组数据。这场技术变革带来了前所未有的数据洪流:蛋白质结构数据库的规模从传统的20万实验结构激增至近10亿预测模型。然而,在这片数据的"星辰大海"中,科学家们突然面临一个幸福的烦恼:如何系统性地组织、分析和理解这个突然膨胀的蛋白质宇宙?

这种数据爆炸暴露出现有研究范式的局限性。虽然蛋白质序列分析已有成熟的工具链(如BLAST、InterPro等),但针对三维结构的系统性分析方法仍显匮乏。更关键的是,不同来源的蛋白质结构数据库(如基于UniProt的AFDB、源自宏基因组的ESMAtlas和专注微生物的MIP)之间缺乏统一的分析框架,使得跨数据库的生物学发现变得困难。这就像拥有多张星空图谱却无法将它们拼接成完整的宇宙地图,严重制约了从结构角度理解生命多样性的能力。

为破解这一难题,由Pawet Szczerbiak和Tomasz Kosciolek领衔的国际研究团队在《Nature Communications》发表了开创性研究。研究人员采用多尺度计算方法,首先使用Foldseek对三大数据库(AFDB、ESMAtlas高质量子集和MIP)进行结构聚类,消除冗余后获得150万个代表性结构。通过Geometricus生成的形状特征向量(shape-mer)和PaCMAP降维技术,构建出蛋白质结构的低维图谱。结合deepFRI结构功能预测工具和创新的GO-to-COG映射系统(go2cog),实现了结构空间与功能空间的联合解析。特别值得注意的是,研究团队还建立了包含病毒(BFVD)和人工设计蛋白(ProtGPT2)的扩展数据集,验证了分析框架的普适性。

结构空间展现连续性与互补性

通过分析1,505,141个结构代表构建的蛋白质宇宙,研究发现蛋白质构象在低维空间中呈现渐进式变化,形成连续的结构景观。CATH数据库的α/β类结构在中心区域密集分布,延伸出β主导(左侧)和α主导(右侧)的分支。特别引人注目的是左上角聚集的纤维蛋白(如MGYP000417476362),具有方形、三角形等特殊截面,与跨膜运输和病原性相关。三大数据库在结构空间呈现明显互补:AFDB与ESMAtlas虽有大量重叠,但各自覆盖独特区域;MIP则主要补充单域蛋白的空缺。这种"结构互补性"现象通过Foldseek聚类量化证实——63%的高质量结构形成异质集群(含多数据库成员)。

功能定位揭示生物学规律

研究创新性地提出"功能定位性"概念——高级生物学功能在结构空间的特定区域聚集。通过deepFRI v1.0/v1.1双版本验证,发现代谢相关功能(superCOG 2)富集在α/β类区域,符合酶蛋白需要复杂结构适应底物的特性;而信息处理功能(superCOG 3)因受核酸构象限制,其结构多样性较低。空间自相关检验(Moran's I)证实这种分布非随机(p≈0)。令人惊讶的是,MIP新折叠中67-80%的蛋白仍可被准确注释,如四氢甲烷蝶呤S-甲基转移酶(GO:0030269)和果胶酯酶抑制剂(GO:0046910),表明新折叠未必对应新功能。

异质集群主导蛋白质宇宙

分析显示63%的高质量结构形成跨数据库异质集群,其中ESMAtlas与AFDB轻链(light)蛋白的集群规模更大(中位数6 vs 3)。前十大的异质集群(444-714个成员)主要来自海洋宏基因组,富含定位和膜组装功能;而ESMAtlas与AFDB暗链(dark)形成的集群则结构多样性更高。研究还发现AFDB长蛋白(>1300aa)更易成为单例,部分源于真核蛋白固有的无序区域倾向。通过比较ProtGPT2生成蛋白与天然蛋白的分布,证实人工设计蛋白能覆盖整个结构空间,但低pLDDT区域显著富集。

这项研究构建了首个整合多源数据库的蛋白质宇宙参考框架,其重要意义体现在三个维度:方法论上,开发的Geometricus-PaCMAP-deepFRI技术链为海量结构数据分析树立了新标准;生物学上,揭示的结构互补性与功能定位性为理解蛋白质进化提供了新视角;应用层面,开放的探索平台(https://protein-structure-landscape.sano.science)使研究者能直观挖掘结构-功能关系。正如作者所言,这标志着蛋白质研究从"序列时代"正式迈入"结构宇宙时代"——正如望远镜革新了天文学,这种统一框架将加速从结构角度解密生命的多样性与复杂性。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号