综述:人工智能在全新蛋白质设计中的应用

【字体: 时间:2025年06月13日 来源:Medicine in Novel Technology and Devices CS5.1

编辑推荐:

  这篇综述系统阐述了人工智能(AI)在蛋白质从头设计(de novo design)中的突破性进展,重点分析了基于序列(如ProtGPT2/ESM-2)、结构(如ProteinMPNN/RFdiffusion)和功能设计的AI方法,揭示了其在开发新型治疗药物、可持续生物材料和环境修复酶等领域的巨大潜力。

  

摘要

蛋白质工程的核心目标是创造具有最优功能和特性的分子。蛋白质从头设计作为该领域最激动人心的研究方向之一,能够不依赖现有蛋白质模板合成全新分子。人工智能(AI)通过机器学习算法分析海量序列和结构数据,使这一愿景成为现实。本文深入探讨了推动该领域发展的关键AI技术创新,以及它们如何开启蛋白质设计的革命性机遇。

1. 引言

蛋白质是生命活动的基础执行者,承担结构支持、生化反应催化、信号传递等关键功能。传统蛋白质改造方法(如定向进化)受限于天然蛋白质模板,而从头设计通过逆向思维——从目标功能或结构反推序列,实现了真正的“从无到有”。这一过程依赖于对蛋白质“序列-结构-功能”关系的深刻理解,而AI恰好擅长捕捉这些复杂关联,并将其转化为高维表征。近年来,深度学习技术显著提升了蛋白质设计的精度,推动研究重心从结构设计转向功能设计。

2. 蛋白质从头设计的概念

从头设计的本质是一个优化问题:给定目标结构,预测能稳定折叠为该结构的氨基酸序列。其最大挑战在于,天文数字级的序列空间中仅有极少数能自发折叠并具备功能。AI通过高效搜索算法解决了这一难题,例如:

  • 序列设计:语言模型(如ProGen2)通过训练19000个蛋白质家族数据,可生成指定功能标签的新序列,实验证实其设计的溶菌酶变体与天然蛋白活性相当。
  • 结构设计:扩散模型(如RFdiffusion)通过“去噪”生成全新蛋白骨架,其设计的新冠病毒结合蛋白与冷冻电镜结构高度吻合。

3. 蛋白质从头设计的方法

3.1 基于序列的设计

早期方法(如Rosetta)通过能量函数优化序列,而AI带来了范式变革:

  • 语言模型:ESM-2在150亿参数规模时可预测原子级结构,替代计算密集的多序列比对(MSA)。
  • 功能生成:Johnson团队结合生成模型与实验验证,成功设计出具有体外活性的酶,其流程包含数据策划、多组件过滤等关键步骤。

3.2 基于结构的设计

  • 几何参数化:Grigoryan团队通过螺旋间距、扭转角等参数设计理想螺旋束,但成功率有限。
  • 图神经网络:ProteinMPNN将蛋白质表示为原子接触图,序列恢复率达50%,但依赖已知骨架。
  • 扩散模型:Chroma通过二级结构条件生成特定骨架,其设计的机械性能蛋白为生物传感器开发提供新思路。

3.3 新分子功能设计

功能设计聚焦“基序-支架”(motif-scaffold)策略:

  • 分子表面指纹:MaSIF网络通过几何-化学特征匹配,设计出与PD-1/CTLA-4等靶点纳摩尔结合的蛋白。
  • 动态调控:Pillai团队通过“铰链”模块融合设计可逆构象复合物,其晶体结构证实了效应物驱动的构象切换能力。

4. 讨论与展望

当前AI方法各具优势:语言模型擅长序列生成,GNN精于结构匹配,扩散模型开创无模板设计。但挑战依然存在:

  • 数据瓶颈:膜蛋白等复杂结构数据稀缺,需依赖AlphaFold3等工具扩展预测范围。
  • 功能验证:体外活性到体内效能的转化仍需突破,尤其在免疫原性、递送效率等方面。
    未来,通过增强模型可解释性、整合多模态AI方法,蛋白质设计有望在合成生物学、精准医疗等领域引发新一轮革命。例如,将非天然氨基酸纳入设计体系,或为罕见病治疗开辟全新路径。

作者贡献与资助

本文由姚佳伟(第一作者)撰写初稿,王晓刚(通讯作者)指导并修订。研究受国家自然科学基金(82350003)支持。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号