基于SHAPES评估的蛋白质结构生成模型覆盖度研究:揭示理想化结构与功能基序的采样偏差

【字体: 时间:2025年07月30日 来源:Cell Systems 9.0

编辑推荐:

  来自Cell Systems的研究团队开发了SHAPES(结构层次嵌入相似性评估)方法,系统评估了5种前沿蛋白质结构生成模型。研究发现这些模型存在对理想化二级结构的过度采样和对功能关键环状结构/三级基序(TERMs)的采样不足,通过Fréchet蛋白距离(FPD)量化了分布覆盖缺陷。该研究为优化蛋白质设计模型的全面性提供了重要基准。

这项开创性研究像拿着分子显微镜般审视了蛋白质结构生成模型的"想象力边界"。科学家们开发出SHAPES(Structural and Hierarchical Assessment of Proteins with Embedding Similarity)这把"结构标尺",对5种顶尖模型进行全方位"体检"。结果显示这些AI"造物主"存在明显的"审美偏好"——过度迷恋教科书式的理想化α螺旋和β折叠,却冷落了那些看似杂乱实则功能关键的环状结构(loops)和三级结构基序(TERMs)。

通过多尺度结构嵌入分析和Fréchet蛋白距离(FPD)量化,研究发现模型在采样温度调节时表现出有趣的"性格差异":有些像保守的学院派,有些则像冒险的探索者,但都未能完整覆盖天然蛋白质的"结构宇宙"。特别值得注意的是,那些承担催化、结合等功能的关键TERMs在生成结构中严重"缺席",这就像造车时只关注漂亮外壳却忘了安装发动机。

该研究为蛋白质设计领域敲响警钟:当前模型的结构覆盖度存在系统性偏差,需要更强大的序列设计和结构预测方法来引导AI探索更广阔的"可设计蛋白质空间"。这些发现或将推动下一代生成模型突破现有局限,创造出既美观又实用的"分子机器"。

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号