CASP16-CAPRI大规模采样数据集:蛋白质结构与复合体预测的系统性突破

《Proteins: Structure, Function, and Bioinformatics》:MassiveFold Data for CASP16-CAPRI: A Systematic Massive Sampling Experiment

【字体: 时间:2025年08月30日 来源:Proteins: Structure, Function, and Bioinformatics 2.8

编辑推荐:

  这篇研究系统性评估了AlphaFold2(AF2)大规模采样策略在蛋白质结构预测中的应用,通过CASP16-CAPRI竞赛中71个靶标(含39个多聚体)的8040个模型/靶标的数据集,创新性提出基于DockQmax和ipTM的界面难度分级体系,证实选择性采样策略可将计算量减少69%而保持精度。研究为资源受限团队提供开源数据集,并揭示当前评分方法的局限性。

摘要

MassiveFold数据集通过极端并行化生成8040个模型/靶标的蛋白质结构采样库,聚焦CASP16-CAPRI竞赛中31个多聚体靶标的65个界面分析。研究证实大规模采样对"困难"界面(DockQmax 0.4-0.6)提升最显著,而AF2基准运行的ipTM中位数可提前预测界面难度(AUC=0.821)。通过优化采样策略将模型数从8040减至2475,实现计算效率与预测精度的平衡。

1 引言

AlphaFold2(AF2)大规模采样已成为蛋白质复合体预测的金标准。Wallner团队在CASP15-CAPRI中证实,增强采样能发现常规方法遗漏的解决方案。本研究通过MassiveFold v1.2.3在法国IDRIS超算中心实现最大并行化,生成包含单体和多聚体的系统性数据集。关键挑战在于从海量模型中筛选最优结构——当前依赖AF2内部评分(如多聚体的ipTM)存在明显局限。

2 材料与方法

2.1 靶标

选取CASP16与CAPRI第57轮的71个蛋白质靶标(32单体+39多聚体),重点分析31个共有靶标的65个界面。

2.2 大规模采样集生产

使用V100/A100 GPU运行8组参数组合(6组AFmassive+2组ColabFold),每组含15种神经网络模型。多聚体采用3变体×5基础模型的15NN架构,每个模型生成67个预测;单体则用5NN模型各生成201个预测。关键参数包括:进化层dropout(0-1)、结构模块dropout(0-1)、模板使用、21次循环迭代等。

2.3 预测筛选与评估

基于AF2置信度评分:单体采用pLDDT(0-100),多聚体采用0.8×ipTM+0.2×pTM(0-1)。提交每组前5高置信度模型作为"Brysbaert"预测集。

2.4 界面难度分级

建立三级分类体系:

  • "简单"(41个):DockQmax>0.6且DockQmax-Q3≤0.2

  • "困难"(17个):0.4<>max<0.6或(0.6<>max<1且DockQmax-Q3≥0.2)

  • "极端"(7个):DockQmax<0.4

2.5 采样策略优化

开发6种渐进式方案:

  • MF-S1/S2/S3:基于ipTM中位数阈值(0.8/0.65/0.57)选择性采样

  • MF-S4/S5/S6:进一步将采样量减至33预测/模型,保留5组核心参数

3 结果与讨论

3.1 难度分级验证

"困难"界面在MassiveFold中呈现显著离群值分布(图1c),其AF2基准ipTM中位数(0.57-0.65)显著低于"简单"界面(>0.8)。最大ipTM<0.72可有效识别"极端"界面。

3.2 预测质量比较

在17个"困难"界面中,MassiveFold最佳模型显著优于AF2基准(图2)。但AF2基准集在"简单"界面表现更优,而"极端"界面两类方法均失效。关键发现:单纯依赖ipTM评分会遗漏23%的高质量模型。

3.3 计算效率优化

MF-S5方案(ipTM<0.65阈值+2475预测/靶标)实现最佳平衡:

  • 计算量减少69%

  • 保留92%高质量预测

  • 在CAPRI评分中保持领先地位

4 结论

研究建立首个系统性大规模采样数据库,证实选择性采样策略的可行性。界面难度预判体系(基于ipTM中位数)和优化采样方案为资源节约提供范式。未来需开发不依赖AF2评分的结构基筛选方法,以充分释放深度采样潜力。所有数据集已开源(https://github.com/GBLille/CASP16-CAPRI_MassiveFold_Data)。

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号