
-
生物通官微
陪你抓住生命科技
跳动的脉搏
CASP16中蛋白质多聚体与RNA结构建模的创新策略:基于深度学习的多序列比对增强与模型排名优化
【字体: 大 中 小 】 时间:2025年08月04日 来源:Proteins: Structure, Function, and Bioinformatics 2.8
编辑推荐:
这篇综述详细介绍了KiharaLab团队在CASP16竞赛中采用的蛋白质复合物和RNA结构预测策略。通过整合AlphaFold2/3(AF2/AF3)等深度学习模型、增强型多序列比对(MSA)构建(含宏基因组数据)以及改进的VoroIF-jury共识评分系统,团队在蛋白质多聚体预测中排名第一,RNA预测位列第三。文章重点探讨了病毒组装体建模的成功案例与抗体-抗原界面预测的局限性,为计算结构生物学领域提供了方法论参考。
三维结构解析对理解生物大分子功能至关重要。尽管X射线晶体学、核磁共振(NMR)和冷冻电镜(cryo-EM)等技术已取得进展,但实验方法仍存在耗时耗力的局限性。计算预测方法如AlphaFold2(AF2)通过Transformer架构直接从多序列比对(MSA)提取进化信息,实现了端到端的原子坐标预测。CASP16中,KiharaLab团队将AF2-Multimer(AF2M)与AlphaFold3(AF3)结合,并引入创新性增强策略。
团队采用集成建模策略:使用3种AF2M参数权重与两种MSA(标准库+自建宏基因组数据库)生成150个初始模型,AF3服务器补充预测。模型通过定制化VoroIF-jury系统排名,整合了DFIRE、GOAP等7种评分函数,并结合文献证据人工筛选。
创新性地利用Logan病毒数据库(含3690亿条序列)和NCBI宏基因组数据构建MSA,使有效序列数(Neff)平均提升1.66倍。例如靶标T1235的Neff从13增至157.7,DockQ评分从0.500跃升至0.857。
采用7种算法(包括自研NuFold)结合4类MSA生成147个模型。rMSA流程迭代搜索Rfam和RNAcentral数据库,对长链RNA采用AF3预测子单元后人工组装。评分使用Rosetta能量与ARES的ranksum组合。
团队在37个靶标中排名第一(SumZ > -2.0),55%的Top1模型来自AF3。典型案例H1236(病毒衣壳蛋白A3B6)通过宏基因组MSA使DockQ达0.604,显著优于AF3-server的0.301。
VoroIF-jury在66.7%靶标中能从155个模型池筛选出DockQ差异<0.1的优质结构,但人工干预有时反降低准确性,如靶标H1223人工选择导致DockQ下降0.234。
病毒蛋白H1245(毒素-抗毒素复合物)通过整合外部模型排名第二,DockQ 0.793。RNA靶标R1290结合模板8K0P与AF3预测环区,TM-score达0.996。
抗体-抗原界面预测仍是难点,如H1204(血红蛋白-纳米抗体)最佳模型DockQ仅0.490,因缺乏共进化信号。RNA多聚体预测普遍失败,反映出现有方法的架构缺陷。
宏基因组MSA和混合评分策略提升了病毒组装体预测精度,但抗体界面和RNA复合体仍需突破。未来需结合大语言模型(LLM)自动化文献挖掘,推动AI驱动的结构生物学决策流程发展。
生物通微信公众号
知名企业招聘