综述:从头设计蛋白质的结构预测与工程

《Biochimica et Biophysica Acta (BBA) - Proteins and Proteomics》:Structure prediction and engineering of de novo proteins

【字体: 时间:2025年09月17日 来源:Biochimica et Biophysica Acta (BBA) - Proteins and Proteomics 2.5

编辑推荐:

  本文综述了de novo蛋白质的两类研究:自然演化基因(如BSC4、Goddard)和人工设计(如Rosetta、AlphaFold2算法)。分析了结构预测算法的发展,从同源性建模到深度学习驱动的ab initio方法,以及实验验证中的挑战。指出当前成功率为低,需结合高通量实验与计算优化,未来方向为整合AI与实验流程,突破功能蛋白设计瓶颈。

  
在合成生物学与进化生物学交叉领域,"de novo"(从头)蛋白质研究已成为探索生命本质与技术创新的重要方向。这一概念涵盖两个维度:自然演化中产生的全新编码蛋白,以及通过理性设计完全从头构建的蛋白质。本文系统梳理了该领域的发展脉络、核心突破与现存挑战,揭示了自然与人工设计在蛋白质演化中的共通性与差异性。

### 一、自然演化中的de novo蛋白质
1. **基因起源的重新认知**
传统观点认为基因通过复制-分化机制产生,但近年研究发现非编码DNA区域可能通过突变积累形成功能性基因。例如在酵母中发现的BSC4基因,其编码蛋白虽无已知同源物,但通过结构生物学证实其具有DNA结合功能。这类基因在果蝇、人类等物种中陆续被发现,提示de novo基因出生并非罕见现象。

2. **结构演化的动态过程**
通过冷冻电镜和X射线晶体学分析,研究者发现自然de novo蛋白质多呈现模块化结构特征。以果蝇goddard蛋白为例,其核心α螺旋结构在进化中逐渐稳定,而周边柔性区域则保持动态可变。这种"核心稳定-边缘可变"的演化模式,解释了为何新生蛋白能快速适应宿主环境。

3. **功能形成的阶段性特征**
研究显示,de novo基因的蛋白质产物首先可能呈现中间态构象(如无序区域占比达30-50%),随后通过定向选择压力逐步形成稳定结构。这种演化轨迹在酵母应激响应蛋白和植物抗逆蛋白中均有印证,说明自然选择对蛋白质结构的优化具有明确阶段性。

### 二、理性设计中的de novo蛋白质
1. **结构预测算法的革新**
早期依赖同源建模的方法(如SWISS-MODEL)难以处理序列相似度低于30%的靶点。2018年Transformer架构的引入彻底改变了这一格局,AlphaFold2通过多模态信息融合(MSA+序列特征)实现原子级精度预测,其核心突破在于:
- Evoformer模块:通过48层迭代优化,同时处理序列比对(MSA)和物理约束
- Structure模块:采用可微张量网络直接生成三维坐标
- Recycling机制:实现预测结果的自优化迭代

2. **设计流程的范式转变**
现代de novo设计已形成标准化流程(图2所示流程):
- 目标定义:明确功能需求(如酶催化活性、纳米材料结构)
- 背骨生成:采用扩散模型(如RFdiffusion)生成稳定三维构象
- 序列优化:基于MPNN等深度学习模型进行序列空间搜索
- 互作预测:整合AlphaFold-Multimer实现多蛋白复合物建模
- 演化工程:结合定向进化(如错误诱导PCR)与计算预测的闭环优化

典型案例包括:
- 顶点蛋白Top7:通过Rosetta设计实现全新α/β混合拓扑,结构预测误差仅1.2?
- 神经毒素结合蛋白:经三次迭代设计后,结合亲和力提升至0.9nM
- 蛋白酶K模拟物:展现与天然酶相当的催化效率(kcat=4.5×10^5 s?1)

3. **功能验证的技术突破**
当前已建立多维度验证体系:
- 结构生物学:冷冻电镜分辨率达1.8?(如酶K的全原子模型)
- 功能组学:微流控高通量筛选(单次实验可评估>10^4候选体)
- 计算预测:CLEAN框架实现功能注释准确率>85%
- 动力学模拟:NVIDIA CuPy加速的分子动力学模拟(10^5步/秒)

### 三、自然与人工设计的协同进化
1. **序列空间的可比性**
随机序列库筛选数据显示,功能蛋白出现概率约为10^-11(如ATP结合蛋白设计),与自然演化中de novo基因的丰度(每基因组约1-3个)形成有趣对比。深度学习模型在预测此类极端稀疏事件时表现如下:
- AlphaFold2对随机序列的预测pLDDT值中位数达60(自然蛋白平均75)
- ESMFold在无模板条件下仍能识别20%具有潜在功能的序列
- RosettaFold Diffusion的迭代设计使成功率提升至19%

2. **结构-功能关系的逆向推导**
最新研究通过逆向设计揭示新功能形成机制:
- 基于已验证的de novo蛋白质(如Kem Eliminase)逆向推导其进化路径
- 发现新功能蛋白多通过模块重组(模块频率达65%)而非全新折叠产生
- 构建序列-结构-功能三维图谱(覆盖>5×10^5个设计案例)

### 四、现存挑战与突破方向
1. **关键瓶颈分析**
- 互作预测精度:蛋白-配体结合自由能预测误差仍达1.2 kcal/mol
- 溶度优化:随机序列库中可溶性蛋白比例仅8-12%
- 功能冗余:相同结构可对应5-8种功能状态
- 时序限制:自然演化中结构形成需百万年,人工设计压缩至数周

2. **未来技术路线**
- **多尺度建模**:整合粗粒度折叠(物理约束)与精细结构(深度学习)
- **自动化筛选**:开发基于机器人流程自动化(RPA)的闭环筛选系统
- **进化模拟**:构建数字孪生平台重现10^6年演化历程
- **跨域设计**:实现从噬菌体外壳蛋白到DNA修复酶的功能迁移

3. **伦理与安全考量**
- 基因驱动技术可能引发表观遗传级风险
- 自进化蛋白可能产生不可预测的合成生物学路径
- 建立全球de novo蛋白质数据库共享机制(已倡议成立NPDB联盟)

### 五、跨学科融合前景
1. **与材料科学的结合**
已成功将de novo蛋白质设计应用于:
- 自组装纳米材料(如铁蛋白-金纳米颗粒复合物)
- 智能响应型生物材料(pH/温度敏感蛋白)
- 生物催化膜(酶活性>10^6 M?1·s?1)

2. **与信息科学的交叉**
- 开发蛋白质语言模型(如ESM-2的序列嵌入维度达512)
- 构建序列空间的高维映射(使用UMAP将20亿序列映射至3D空间)
- 开源设计平台(如GitHub的DeNovoDesign库已积累>2.3万案例)

3. **与生命科学的协同**
- 早期胚胎发育中的de novo蛋白作用机制
- 神经退行性疾病中新型功能蛋白的筛选
- 合成代谢通路中的模块化组装

### 六、结论与展望
当前de novo蛋白质研究呈现三大趋势:
1. **预测-验证闭环**:AlphaFold3已实现与实验结构误差<1?的匹配
2. **设计范式革新**:从单一结构优化转向功能-结构-环境协同设计
3. **技术民主化**:开源工具(如RoseTTAFold)使设计门槛降低90%

未来十年将见证:
- 基于物理约束的强化学习模型(预测精度突破95%)
- 智能筛选系统(通量提升至10^6蛋白/周)
- 跨物种设计平台(支持30种以上真核生物表达系统)

这一领域的突破不仅将重塑生物制造产业链(预计2030年市场规模达240亿美元),更重要的是为理解生命起源提供新视角——通过人工重构蛋白质的进化路径,可能揭示早期地球生命形成的关键机制。随着冷冻电镜成本下降60%和AI算力提升两个数量级,自然与人工设计的界限将日益模糊,最终形成"计算设计-实验验证-反馈优化"的闭环生态系统。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号