CASP16模型质量评估新进展：AlphaFold3驱动的多聚体组装精度预测与优化

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年08月24日 来源：Proteins: Structure, Function, and Bioinformatics 2.8

编辑推荐：

　　这篇综述系统评估了CASP16（Critical Assessment of protein Structure Prediction）中模型质量评估（EMA）实验的创新成果，重点分析了AlphaFold3衍生的原子级pLDDT置信度指标在多聚体组装（multimeric assemblies）质量预测中的突破性表现。研究通过三种评估模式（QMODE1全局结构精度、QMODE2界面残基精度、QMODE3大规模模型筛选）验证了新型惩罚排序算法对冗余模型处理的优越性，为结构生物学和计算建模领域提供了关键方法论支持。

ABSTRACT

CASP16的模型精度评估（EMA）实验通过创新性框架拓展了多聚体组装的质量预测维度。研究团队引入QMODE3模式，从MassiveFold生成的8040个AlphaFold2衍生模型中筛选优质结构，结合OpenStructure（OST）多维度指标和惩罚排序算法，解决了评分冗余和分布差异的挑战。尤为突出的是，基于AlphaFold3原子级pLDDT（predicted Local Distance Difference Test）的置信度预测，在局部精度评估和实验结构解析中展现出显著优势。

1 Introduction

CASP实验历来通过对比预测模型与实验结构来评估质量，而模型质量自评估（accuracy self-assessment）成为关键环节。AlphaFold2采用LDDT替代传统RMS误差指标后，pLDDT已成为社区标准。CASP16进一步探索了原子级pLDDT的价值——在AlphaFold数据库中以颜色梯度可视化置信度，并证明其在分子置换（molecular replacement）和冷冻电镜（cryo-EM）对接中的实用价值。

1.1 Assessing Accuracy Self-Assessment

研究揭示了pLDDT的两大革新：其一，AlphaFold3的原子级预测比AlphaFold2残基级精度提升17.6%的reLLG（relative expected Log-Likelihood Gain）；其二，通过OST 2.9新增的原子级LDDT计算功能，证实精细粒度预测能更准确反映局部构象误差。典型案例显示，AF3-Server组因全面采用AlphaFold3，其pLDDT与实验结构的RMSD偏差显著低于传统方法。

1.2 Quality Assessment of Other Predictors' Models

1.2.1 QMODE1/2: Global and Interface Quality Estimates

CASP15建立的AC Baseline（Assembly Consensus）在全局评分（SCORE）和界面评分（QSCORE）中仍具竞争力。但CASP16的创新在于：通过PatchQS和PatchDockQ指标强化界面残基评估，并开发LDDT变体以捕捉模型特有接触。实验数据表明，ModFOLDdock2等共识方法在局部精度预测（Local）中平均Pearson相关系数达0.72，较CASP15提升44%。

1.2.2 QMODE 3: Ranking of MassiveFold Models

面对MassiveFold模型池的筛选挑战，研究团队设计基于Mahalanobis距离的加权惩罚算法：通过OST计算的LDDT、TM-score等12项指标构建协方差矩阵，消除冗余特征影响。如图1所示，异源二聚体H1265的模型质量分布呈现显著异质性，而传统Z-score方法可能高估局部特征贡献。

2 Methods

2.1 Accuracy Self-Assessment by pLDDT

采用OST 2.9计算原子级LDDT作为金标准，对比54组预测器的pLDDT偏差。关键改进包括：使用RMSD替代绝对偏差评估预测准确性；在reLLG计算中，将pLDDT转换为晶体学B因子加权模型。

2.2 QMODEs 1 and 2

通过改进的损失函数（Loss, L）和ROC AUC（R）评估38个靶标（TM-score≥0.6）。其中QS-best指标专注模型与靶标重叠区域，避免因实验数据缺失导致的误判。公式显示，最终排名分数RS_QSCORE = (P_QS + S_DockQ + R_PatchQS - L)/4。

2.3 QMODE 3

针对单体、同源/异源多聚体分别构建协方差矩阵。算法通过两轮筛选：首轮计算全模型Mahalanobis距离剔除异常值，次轮生成最终权重。如图2所示，异源多聚体H1208的OST评分间相关系数高达0.92，凸显协方差加权的必要性。

3 Results

3.1 Accuracy Self-Assessment by pLDDT

AF3-Server的原子级pLDDT使reLLG从13.0（未加权）提升至17.6。例外是PLMfold组，其改进可能源于统计噪声——剔除3个靶标后优势消失。

3.2 QMODEs 1 and 2

ModFOLDdock2在界面残基分类（图4d）中表现突出，而MQA组通过概率模型识别真实界面残基。与AF3-Server自评估对比发现，EMA方法在PatchDockQ等界面指标上仍保持15%优势。

3.3 QMODE 3

SHORTLE组凭借非深度学习策略（基于6000个PDB结构的统计参数）在跨类别评估中夺魁。但异源多聚体领域，AlphaFold2的ipTM仍优于85%的预测器（图6d）。分析显示，最佳筛选模型的平均真实排名为147（TM-score），反映出现有方法的局限性。

4 Conclusions

CASP16证实AlphaFold3在置信度预测上的统治地位，但异源复合体评估仍是痛点。建议CASP17实施两阶段提交策略识别共识方法，并要求QMODE3提供完整模型排序。这些发现为结构预测的工业化应用——如药物靶点识别和蛋白质设计——提供了关键质量管控指标。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号