
-
生物通官微
陪你抓住生命科技
跳动的脉搏
拓扑数据分析揭示蛋白质宇宙的结构组织原理与功能关联
【字体: 大 中 小 】 时间:2025年08月14日 来源:Nature Communications 15.7
编辑推荐:
本研究通过拓扑数据分析(TDA)方法系统解析了AlphaFold2预测的2.14亿个蛋白质结构,首次在全蛋白质组尺度揭示了拓扑特征与蛋白质功能、进化和疾病突变的关系。研究团队开发的持久同调(PH)计算方法识别了拓扑生成器(topology generators)和拓扑影响分数(TIF),发现真核生物蛋白质拓扑复杂度显著高于原核生物,并验证了拓扑特征与蛋白质结构域、结合位点的关联性,为蛋白质设计、疾病突变预测和极端环境适应机制研究提供了新范式。
在结构生物学领域,AlphaFold2的突破性进展带来了前所未有的挑战——当我们可以预测几乎所有已知蛋白质的三维结构时,如何从这海量结构数据中提取有意义的生物学规律?这个被称为"蛋白质宇宙"的庞大结构集合,包含着214 million个预测蛋白,但传统分析方法难以处理如此大规模的数据。更关键的是,蛋白质的功能往往取决于其整体拓扑特征而非局部细节,这就像试图通过观察单个齿轮来理解整个钟表的运作机制。
来自墨尔本大学(University of Melbourne)等机构的研究团队在《Nature Communications》发表了一项开创性研究,将数学拓扑学与计算生物学相结合,开发出能够分析整个蛋白质宇宙的新方法。研究人员采用持久同调(Persistent Homology, PH)这一拓扑数据分析技术,通过计算α-碳原子的空间排列,识别蛋白质中的关键拓扑特征如环(loops)和空洞(voids)。研究建立了拓扑影响分数(Topological Influence Score, TIF)量化每个氨基酸对整体结构的贡献,并开发了高效计算流程,在Oracle Cloud上耗费10,560 CPU小时处理了近10TB数据。
关键技术包括:(1)基于AlphaFold2预测结构的α-碳点云建模;(2)使用Ripserer.jl软件计算维数为1(环)和2(空洞)的持久同调;(3)开发超图中心性算法计算TIF;(4)整合CATH结构域数据库和M-CSA催化位点数据集进行功能验证;(5)比较30种嗜热菌和8种常温菌的酶拓扑特征。
拓扑特征揭示蛋白质宇宙的组织原则
通过构建"生命拓扑树",研究发现真核生物蛋白质的拓扑复杂度显著高于细菌和古菌,多细胞生物尤其突出。人类蛋白质的拓扑丰富度意外低于其他哺乳动物,可能反映了人类更依赖转录调控而非蛋白质结构复杂性。
拓扑分析实现蛋白质结构多尺度解析
1维拓扑簇(环)能精细划分CATH结构域,而2维拓扑簇(空洞)与70%的催化位点相邻。研究证实AlphaFold2预测结构与实验结构的拓扑特征高度一致(Pearson相关系数>0.9),表明方法具有强鲁棒性。
嗜热蛋白的拓扑适应性
分析10类EC编号酶发现,嗜热菌酶的拓扑空洞显著小于常温菌(p=2.789×10-6),且氨基酸体积分布差异不能解释这种趋势,提示紧凑的拓扑结构可能是热稳定的关键因素。
疾病突变的拓扑预测
在ACE2、HBB等蛋白中,致病变异显著富集于高TIF区域。拓扑分析可识别结构敏感位点,为突变致病机制研究提供新思路。
这项研究建立了首个全蛋白质组的拓扑图谱,揭示了从氨基酸到生物界的多尺度结构规律。其重要意义在于:(1)将抽象的数学拓扑转化为实用的生物学分析工具;(2)为蛋白质设计和工程提供新参数;(3)建立了极端环境适应的拓扑解释模型;(4)开发了可扩展至其他大规模结构分析的计算框架。研究提供的20TB拓扑数据库将成为探索蛋白质结构-功能关系的重要资源,推动结构生物学进入"拓扑时代"。
生物通微信公众号
知名企业招聘