Alpha&ESMhFolds：人类AlphaFold2与ESMFold模型比较评估及功能注释平台的更新与应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Journal of Molecular Biology》：Alpha&ESMhFolds: an updated web server for the comparison, evaluation, and annotation of human AlphaFold2 and ESMFold models

【字体：大中小】 时间：2026年01月25日 来源：Journal of Molecular Biology 4.5

编辑推荐：

　　本刊推荐：为解决AlphaFold2与ESMFold模型可靠性评估标准不统一的问题，研究团队开发了升级版Alpha&ESMhFolds平台。该平台整合了48,815个人类蛋白质模型对，新增Pfam功能域映射、致病突变定位及多工具质量评估体系。研究发现两种模型在功能域区域均呈现高精度收敛（局部TM-score达0.94），为结构生物学研究提供了可靠的模型选择依据。

在结构生物学领域，深度学习革命彻底改变了蛋白质三维结构的预测方式。AlphaFold2在第十四届蛋白质结构预测关键评估（CASP14）中的突破性表现，标志着计算生物学进入新纪元。然而，当Meta公司推出基于蛋白质语言模型的ESMFold后，科研界面临新的挑战：这两种分别依赖多重序列比对和单序列嵌入的不同算法，在预测人类蛋白质组时究竟孰优孰劣？更为关键的是，当模型出现分歧时，研究者该如何选择最适合下游分析的可靠结构？

这正是博洛尼亚大学团队在《Journal of Molecular Biology》发表的最新研究要解决的核心问题。他们此前开发的Alpha&ESMhFolds数据库已存储了人类蛋白质组的预测模型对，而本次升级版工作则通过三大创新将平台推向新高度：整合UniProt 2025_04最新数据、实现Pfam功能域的三维映射、引入外部质量评估工具形成共识评价体系。

研究团队首先完成了大规模数据更新，涵盖48,815个人类参考蛋白质组（UP000005640）序列，其中3,827个蛋白质具有实验结构（覆盖度≥70%）。值得注意的是，AlphaFold DB v6版本中22,961个TrEMBL数据库未审查蛋白质的模型仅更新了元数据，而所有SwissProt已审查蛋白质均获得新模型。这种差异化的更新策略使得数据库能够精准反映最新结构预测进展。

在方法学上，研究采用了多层级验证框架：通过FoldSeek计算TM-score评估结构相似性；利用DeepAccNet、QMEANDisCo和QATEN三种机器学习工具进行独立质量评估；开发专用流程将Pfam 38.0的8,131个功能域映射到81,598个模型上。特别值得关注的是，团队首次实现了致病突变从UniProt到三维结构的自动映射，为疾病机制研究搭建了重要桥梁。

新特征的网络服务器功能展示

以糖基磷脂酰肌醇锚定高密度脂蛋白结合蛋白1（Q8IV16）为例，平台新增的四大功能面板展现出强大分析能力。虽然该蛋白全局TM-score仅0.52（表明模型整体差异较大），但其"u-PAR/Ly-6"功能域区域却呈现0.98的近乎完美叠合。更引人注目的是，外部质量评估工具一致认为ESMFold模型略优于AlphaFold2（尽管后者自评pLDDT更高），这凸显了独立验证在模型选择中的关键价值。

扩展至整个数据库的功能注释

当分析扩展到全数据库时，发现了一个显著规律：无论模型整体质量如何，Pfam覆盖区域始终表现出优异的预测一致性。在23,071个相似模型（TM-score≥0.6）中，功能域局部TM-score平均值达0.94；即使在25,744个分歧模型（TM-score<0.6）中，该指标仍保持在0.82的高水平。进一步分析表明，这种差异不仅源于多结构域蛋白的相对旋转，更反映了算法对功能区域的内在识别能力。

AlphaFold2和ESMFold模型的外部比较

质量评估共识机制揭示了方法间的互补性：在模型一致的蛋白质中，AlphaFold2在81%情况下更优；而在模型分歧的蛋白质中，两种方法各擅胜场（AlphaFold2优选占51%，ESMFold占49%）。这一发现打破了"一方恒优"的简单认知，强调需要根据具体蛋白质特性选择模型。

该研究的核心结论在于证实了深度学习预测模型的功能区域可靠性：即使整体结构存在分歧，已知功能域仍能保持高精度预测。平台每年更新的机制将确保其持续服务于结构生物学社区，而动态集成新验证工具的设计思路，更为未来算法发展预留了接口。这项工作不仅为药物设计提供了可靠的结构基础，更通过致病突变定位功能搭建了连接基因变异与表型的重要桥梁，展现出计算生物学在精准医疗中的巨大潜力。

关键技术方法概述：研究基于UniProt 2025_04人类参考蛋白质组，采用结构比对工具FoldSeek计算TM-score等指标，整合DeepAccNet、QMEANDisCo和QATEN三种机器学习质量评估方法，开发Pfam功能域自动映射流程，并通过升级Mol*可视化插件实现三维结构交互分析。所有分析涵盖48,815个蛋白质对的97,630个预测模型。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号