CASP16中RNA唯一样本的RNA-Puzzles评估:三维结构预测进展与挑战

【字体: 时间:2025年10月04日 来源:Proteins: Structure, Function, and Bioinformatics 2.8

编辑推荐:

  本综述系统评估了CASP16中RNA唯一样本的三维结构预测结果,采用RNA-Puzzles建立的标准化评估体系(包括INF、RMSD、TM-score、lDDT等指标),揭示了当前预测方法在全局折叠精度、非沃森-克里克配对(non-Watson–Crick pairs)和立体化学准确性方面的突破与局限,为RNA结构预测领域的算法优化和功能研究提供了重要基准。

  

1 引言

2024年举行的第十六届蛋白质结构预测关键评估(CASP16)在多个方面与往届不同:目标RNA数量显著增加、结构复杂度更高(如出现多聚体和大分子量RNA)、近半数目标在现有数据库(如RFAM、PDB)中无同源结构,且多数结构数据来源于冷冻电镜(cryo-EM)而非X射线晶体学。冷冻电镜技术的飞速发展使得从tRNA到大于组II内含子的RNA结构均可在数周内解析,甚至达到2.0–2.5?的分辨率。与此同时,人工智能(AI)和基于大语言模型的工具正快速发展,但同时也带来了模型记忆效应问题——已见过的结构无法从AI记忆中抹去。
RNA结构预测的本质逐渐趋近于“三维逆折叠问题”:即给定序列应匹配何种结构。尽管RNA的二维逆折叠研究较多,三维层面的研究仍较为有限。RNA核苷酸具有明显的构象偏好性(如C3′-内型糖环、反式碱基、gauche+的O5′构象等),但1–5个核苷酸的短序列仍可采取多种构型,这导致无连接核苷酸的螺旋连接较易组装,而含多个螺旋间核苷酸的连接则较难,这一点在CASP15中人设计序列的预测中已得到验证。

2 方法

评估采用RNA-Puzzles建立的“相互作用网络保真度”(Interaction Network Fidelity, INF)标准,该指标整合了沃森-克里克配对(WC)、非沃森-克里克配对(NWC)和碱基堆积(STACK)三个参数,并使用MC-Annotate进行非标准配对识别,依照Leontis-Westhof命名法进行二维图注释。计算中评估了真阳性(TP)、假阳性(FP)和假阴性(FN),并通过马修斯相关系数(MCC)计算INF值。此外还采用:
  • 变形指数(Deformation Index):INF与RMSD的比值;
  • 变形谱(Deformation Profile):以逐个核苷酸为单位的局部RMSD矩阵,用于识别结构偏差区域;
  • MolProbity的Clash score:评估立体化学和内部几何;
  • MAXIT:检查手性违规(如核糖C4′或C1′构型错误);
  • TM-score和lDDT:分别作为全局和局部结构相似性度量。
预测分为人工参与建模和全自动服务器预测两类,但目前服务器预测数量仍较少,难以进行方法间比较。所有评估数据、代码和流程均公开于www.rnapuzzles.org

3 结果

3.1 评估指标间的相关性分析

INFall与lDDT相关性较好,与TM-score相关性较弱;lDDT与GDT、TM-score均呈良好线性相关。当GDT>40或TM>0.4时,INFall多处于0.7–0.8之间。GDT与RMSD相关性较高,而TM-score较差。RMSD超过20?、GDT<40、TM<0.4或INFall<0.7的模型区分度较低。

3.2 各目标的评分分布

在34个目标中,10个目标的模型RMSD超过10?,8个在5–10?之间,16个低于5?。许多模型不仅RMSD高(>60?)、TM-score低(<0.4),还存在立体化学冲突(Clash score>100)。甚至包括已发表结构的目标(如ZMP核糖开关、HYER组II核酶等)也表现不佳。约三分之一提交模型存在手性违规,涉及64%的参赛组。在剔除RMSD>60?和Clash>100的模型后(占总数10%),分析集中于剩余样本。

3.3 典型目标深度分析

  • R1212(FanzorRNA引导核酸酶部分):虽长度不长,但因含假结和复杂三维互作而难度高。最佳模型RMSD为8.2?(TS063团队),但3′区域仍存在偏差;
  • R1288(体外筛选核酶):是三向连接结构(type A),核心非沃森-克里克配对网络复杂。最佳模型RMSD为5.4?(TS481),但关键反应位点A52未正确安置,且C11=G34配对未能预测;
  • R1285/OLE RNA:形成同源二聚体,单体折叠较为成功(最佳RMSD=6.7?,TM=0.7),双链环-环互作空间位置正确;
  • R1293(病毒翻译增强子):含平行链碱基配对等非经典结构。仅TS063团队接近实验结构(RMSD=4.6?),但TM仅0.5。

3.4 参赛团队对比分析

65支团队中27支从未进入前五名。排名靠前的团队包括:
  • TS481(美国密苏里大学Shi-Jie Chen团队,使用Vfold方法);
  • TS183(广州中山大学黄林团队,结合多种工具与人工修正);
  • TS063(波兰波兹nan研究所,RNAComposer工具);
  • TS304(AlphaFold3服务器,排名第七)。
独立运行AlphaFold3的结果略低于参赛版本,与R. Das等人的评估结论一致。

4 结论

4.1 化学精度普遍不足

许多模型存在立体化学违规(如核糖C4′构型错误),甚至包括传统建模方法和AI工具(如TS317)。虽低精度高准确度模型比高精度低准确度模型更有功能解释价值,但最终模型仍需符合化学约束。

4.2 全局折叠不足以捕捉功能关键特征

虽全局折叠常可实现,但单链区域(如铰链区、环区)的核苷酸空间排列和互作网络常未能正确预测,而这些区域恰是功能(如蛋白质结合、催化)的关键。结构基础上的多序列比对可揭示进化中保守的互作架构。

4.3 大分子RNA预测难度加剧

如组I/II内含子等大于400nt的目标中,部分团队表现优异(如R1241中TS481模型:INFall=0.85, TM=0.88),但整体分布广泛,同源结构映射能力不稳定。

4.4 缺乏统一评估标准

当前评分函数多基于原子坐标而非残基间接触,且多源于蛋白质评估体系。INF是唯一针对核酸碱基配对和堆积的指标,但在低质量模型中判别力不足。

4.5 暂无单一主导预测方法

成功方法多基于知识库、特化力场和统计模型,并结合人工专家干预。深度学习应用仍较少,且效果依赖目标类型和专家经验。

4.6 未来方向:进化指导与AI融合

应发展进化指导的建模方法,将结构基础的多序列比对整合进建模流程并迭代调整。结合物理原理与AI从大数据中提取的折叠规则,才能提升预测成功率——正如Dobzhansky所言“生物学中一切唯有在进化之光下才有意义”,而建模的终极目标是“洞察而非模型”。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号