《Journal of Molecular Biology》:Alpha&ESMhFolds: an updated web server for the comparison, evaluation, and annotation of human AlphaFold2 and ESMFold models
编辑推荐:
本刊推荐:为解决AlphaFold2与ESMFold模型可靠性评估标准不统一的问题,研究团队开发了升级版Alpha&ESMhFolds平台。该平台整合了48,815个人类蛋白质模型对,新增Pfam功能域映射、致病突变定位及多工具质量评估体系。研究发现两种模型在功能域区域均呈现高精度收敛(局部TM-score达0.94),为结构生物学研究提供了可靠的模型选择依据。
在结构生物学领域,深度学习革命彻底改变了蛋白质三维结构的预测方式。AlphaFold2在第十四届蛋白质结构预测关键评估(CASP14)中的突破性表现,标志着计算生物学进入新纪元。然而,当Meta公司推出基于蛋白质语言模型的ESMFold后,科研界面临新的挑战:这两种分别依赖多重序列比对和单序列嵌入的不同算法,在预测人类蛋白质组时究竟孰优孰劣?更为关键的是,当模型出现分歧时,研究者该如何选择最适合下游分析的可靠结构?
这正是博洛尼亚大学团队在《Journal of Molecular Biology》发表的最新研究要解决的核心问题。他们此前开发的Alpha&ESMhFolds数据库已存储了人类蛋白质组的预测模型对,而本次升级版工作则通过三大创新将平台推向新高度:整合UniProt 2025_04最新数据、实现Pfam功能域的三维映射、引入外部质量评估工具形成共识评价体系。
研究团队首先完成了大规模数据更新,涵盖48,815个人类参考蛋白质组(UP000005640)序列,其中3,827个蛋白质具有实验结构(覆盖度≥70%)。值得注意的是,AlphaFold DB v6版本中22,961个TrEMBL数据库未审查蛋白质的模型仅更新了元数据,而所有SwissProt已审查蛋白质均获得新模型。这种差异化的更新策略使得数据库能够精准反映最新结构预测进展。
在方法学上,研究采用了多层级验证框架:通过FoldSeek计算TM-score评估结构相似性;利用DeepAccNet、QMEANDisCo和QATEN三种机器学习工具进行独立质量评估;开发专用流程将Pfam 38.0的8,131个功能域映射到81,598个模型上。特别值得关注的是,团队首次实现了致病突变从UniProt到三维结构的自动映射,为疾病机制研究搭建了重要桥梁。
新特征的网络服务器功能展示
以糖基磷脂酰肌醇锚定高密度脂蛋白结合蛋白1(Q8IV16)为例,平台新增的四大功能面板展现出强大分析能力。虽然该蛋白全局TM-score仅0.52(表明模型整体差异较大),但其"u-PAR/Ly-6"功能域区域却呈现0.98的近乎完美叠合。更引人注目的是,外部质量评估工具一致认为ESMFold模型略优于AlphaFold2(尽管后者自评pLDDT更高),这凸显了独立验证在模型选择中的关键价值。
扩展至整个数据库的功能注释
当分析扩展到全数据库时,发现了一个显著规律:无论模型整体质量如何,Pfam覆盖区域始终表现出优异的预测一致性。在23,071个相似模型(TM-score≥0.6)中,功能域局部TM-score平均值达0.94;即使在25,744个分歧模型(TM-score<0.6)中,该指标仍保持在0.82的高水平。进一步分析表明,这种差异不仅源于多结构域蛋白的相对旋转,更反映了算法对功能区域的内在识别能力。
AlphaFold2和ESMFold模型的外部比较
质量评估共识机制揭示了方法间的互补性:在模型一致的蛋白质中,AlphaFold2在81%情况下更优;而在模型分歧的蛋白质中,两种方法各擅胜场(AlphaFold2优选占51%,ESMFold占49%)。这一发现打破了"一方恒优"的简单认知,强调需要根据具体蛋白质特性选择模型。
该研究的核心结论在于证实了深度学习预测模型的功能区域可靠性:即使整体结构存在分歧,已知功能域仍能保持高精度预测。平台每年更新的机制将确保其持续服务于结构生物学社区,而动态集成新验证工具的设计思路,更为未来算法发展预留了接口。这项工作不仅为药物设计提供了可靠的结构基础,更通过致病突变定位功能搭建了连接基因变异与表型的重要桥梁,展现出计算生物学在精准医疗中的巨大潜力。
关键技术方法概述:研究基于UniProt 2025_04人类参考蛋白质组,采用结构比对工具FoldSeek计算TM-score等指标,整合DeepAccNet、QMEANDisCo和QATEN三种机器学习质量评估方法,开发Pfam功能域自动映射流程,并通过升级Mol*可视化插件实现三维结构交互分析。所有分析涵盖48,815个蛋白质对的97,630个预测模型。