贝果(BAGEL):通过探索能量景观实现蛋白质工程

《PLOS Computational Biology》:BAGEL: Protein engineering via exploration of an energy landscape

【字体: 时间:2025年12月04日 来源:PLOS Computational Biology 3.6

编辑推荐:

  BAGEL是一种模块化开源蛋白质工程框架,通过能量景观探索解决传统方法在非微分和多目标设计中的局限。支持多状态优化、自定义能量项和多种采样算法,整合ESMFold和ESM-2等模型,应用于设计肽结合器、靶向无序epitopes、物种特异性结合及酶变体生成。

  
本文介绍了BAGEL,一个模块化、开源的蛋白质工程框架,旨在解决传统设计方法在灵活性和目标多样性上的不足。BAGEL通过将设计任务转化为能量景观的探索,支持用户自定义非微分约束和多目标优化,为生物技术及药物研发提供新工具。

### 1. 研究背景与核心创新
传统蛋白质设计依赖"逆向折叠"范式,即先设计理想骨架结构再反向推导序列。这种线性流程存在三大局限:
1. **刚性工作流**:难以实现非微分约束(如避免表面疏水残基),需多次迭代验证
2. **模型耦合度高**:高度依赖特定预测模型,难以灵活切换
3. **多目标优化困难**:无法同时满足结构稳定性和功能特异性要求

BAGEL的创新在于建立"能量景观"理论框架,将设计目标转化为可组合的能量项(Energy Terms)。用户可自由定义约束条件,如:
- 空间几何要求(保持特定距离)
- 结构置信度(pLDDT>0.8区域)
- 序列相似性(与参考蛋白嵌入向量匹配度)
- 多状态约束(同时满足多个互斥目标)

### 2. 核心技术架构
#### 2.1 模块化设计哲学
系统由三大核心组件构成:
- **System(系统)**:封装设计目标的多态组合,包含多个State(状态)
- **State(状态)**:每个设计目标对应独立State,可包含多个Chain(链)
- **Chain(链)**:可变序列段,支持灵活的突变策略(插入/删除/替换)

#### 2.2 能量项体系
通过组合不同能量项实现多维约束:
- **几何约束**:包括表面疏水性(HydrophobicEnergy)、结构对称性(RingSymmetryEnergy)、模板匹配(TemplateMatchEnergy)
- **结构置信度**:pLDDT(PLDDTEnergy)、pTM(PTMEnergy)等指标
- **多体相互作用**:PAE(预测对齐误差)、SeparationEnergy(空间隔离能)
- **序列特征**:化学势(ChemicalPotentialEnergy)、二级结构分布(SecondaryStructureEnergy)

#### 2.3 混合优化策略
采用MCMC(马尔可夫链蒙特卡洛)方法进行序列采样,支持多种变体:
- **经典采样**:基于点突变策略的蒙特卡洛方法
- **模拟退火**:线性降温策略优化
- **并行退火**:循环使用高低温相促进跳出局部极小值
- **扩展采样**:引入交叉突变等高级操作

### 3. 实际应用案例
#### 3.1 多靶点选择性结合器
针对小鼠EGR1和人类ZNF593两个锌指结构域,通过设计双State系统实现:
- State1:优化与EGR1的相互作用(PAE<0.25)
- State2:抑制与ZNF593的结合(PAE>0.5)
结果证明,设计出的肽链在EGR1上的PAE为0.23,而在ZNF593上达到1.0,成功实现物种特异性识别。

#### 3.2 无序结构靶向设计
在α-突触核蛋白(ASYN)等疾病相关无序蛋白(IDR)研究中,通过:
1. 全局pLDDT约束(PLDDTEnergy)
2. 局部二级结构引导(SecondaryStructureEnergy)
3. 空间可及性控制(SurfaceAreaEnergy)
成功诱导无序区域形成稳定结构,pLDDT提升幅度达40-60%。

#### 3.3 酶活性位点保护设计
以氧化还原酶P0AEG4为例,采用:
- **刚性约束**:保留Cys30/Cys33活性位点
- **柔性约束**:其他区域使用EmbeddingsSimilarityEnergy保持功能相似性
- **动态平衡**:通过MonteCarloMinimizer实现序列多样性采样
最终生成1286个候选变体,其中92%在活性位点保持<0.5? RMSD偏差。

### 4. 技术优势与局限
#### 4.1 核心优势
1. **目标无关性**:支持任意组合的约束条件,如同时满足疏水性分布和三级结构对称性
2. **跨模型兼容性**:通过boileroom封装不同预测模型(ESMFold、RGN2、MiniFold等)
3. **多尺度设计**:可处理从单链到多聚体的复杂系统
4. **可扩展架构**:预留接口支持非标准氨基酸和核酸设计

#### 4.2 现存挑战
1. **模型依赖性**:预测精度直接影响设计结果,需配合实验验证
2. **能量权重调参**:需领域知识调整各能量项权重比例
3. **计算资源消耗**:大规模多体优化需高性能计算集群
4. **动态模拟缺失**:当前基于静态结构预测,未考虑构象采样

### 5. 未来发展方向
#### 5.1 模型集成优化
计划集成最新模型:
- **结构预测**:RGN2(孤儿蛋白优化)、AlphaFold3(高精度多态体预测)
- **功能预测**:MINT(蛋白相互作用)、ProtGen(序列-功能映射)
- **计算加速**:引入NVIDIA BioNemo平台实现GPU加速

#### 5.2 算法改进
1. **自适应权重优化**:通过贝叶斯优化自动识别最佳约束组合
2. **混合采样策略**:结合遗传算法(GA)和MCMC提升搜索效率
3. **多分辨率采样**:先粗筛后精修,降低计算成本

#### 5.3 实验验证体系
建立"设计-预测-实验"闭环验证:
1. **结构验证**:MD模拟评估稳定性(已实现10ns动态模拟)
2. **功能测试**:合作实验室提供酶活性检测服务
3. **标准化流程**:开发OPUS(Optimization-Proof Validation System)工具包

### 6. 社区协作机制
BAGEL采用开源模式,通过GitHub实现:
1. **模块贡献**:接受用户提交的新能量项(EnergyTerm)和Oracle
2. **基准测试**:定期发布性能测试套件(BAGEL Benchmark Suite)
3. **案例库**:维护30+典型应用模板(从抗体设计到纳米酶开发)

### 7. 行业应用前景
#### 7.1 医药研发
- **靶向无序蛋白**:设计小分子结合器(如CD28抑制剂开发)
- **异源蛋白工程**:构建跨物种结合的免疫疗法候选蛋白
- **酶定向进化**:快速迭代数千种变体(已实现变体库自动筛选)

#### 7.2 生物制造
- **定制酶开发**:在固定活性位点周围生成多样性序列
- **生物材料设计**:通过表面能约束合成自组装蛋白
- **传感器工程**:利用结构敏感能量项构建生物传感器

#### 7.3 生命科学基础研究
- **蛋白质组学**:批量生成探针进行高通量筛选
- **进化重建**:基于约束的序列采样追溯祖先结构
- **突变体库构建**:自动化生成数千种突变体供实验测试

### 8. 教育培训体系
配套开发:
1. **交互式教程**:基于Jupyter Notebook的拖拽式参数配置
2. **虚拟实验室**:整合GROMACS和PyMOL的实时模拟模块
3. **认证体系**:BAGEL Certified Designer(BCCD)专业认证

### 9. 实施建议
1. **新手入门**:从模板库选择类似任务,调整权重参数
2. **进阶优化**:
- 使用boileroom的模型切换功能对比不同预测器
- 配置并行计算任务(支持TensorFlow分布式训练)
3. **高级定制**:
- 开发新EnergyTerm(如分子动力学自由能计算)
- 构建专用Oracle(如基于冷冻电镜的亚细胞定位)

### 10. 伦理与安全
建立生物安全审查机制:
1. **风险分级**:根据设计目标划分生物安全等级
2. **伦理沙盒**:限定在受控实验环境运行高危设计
3. **追溯系统**:记录所有设计变体的基因序列来源

该框架标志着蛋白质设计从"黑箱生成"向"可解释优化"的范式转变,通过模块化组合不同约束条件,为合成生物学提供标准化设计工具。未来随着预测模型的持续进步,BAGEL有望在人工酶开发、病毒蛋白中和等领域取得突破性进展。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号