
-
生物通官微
陪你抓住生命科技
跳动的脉搏
综述:从反应物到产物:生物合成途径设计的计算方法
【字体: 大 中 小 】 时间:2025年06月18日 来源:Synthetic and Systems Biotechnology 4.4
编辑推荐:
这篇综述系统总结了生物合成途径设计的三大计算核心:生物大数据(Biological Big-Data)、逆合成分析(Retrosynthesis)和酶工程(Enzyme Engineering),重点探讨了模板/非模板/半模板方法的优劣对比,以及AI在酶设计(如AlphaFold3、ProteinMPNN)和动力学优化中的突破性应用,为合成生物学(Synthetic Biology)的DBTL(设计-构建-测试-学习)循环提供了智能化解决方案。
生物合成途径设计的计算革命
Abstract
合成生物学的核心目标之一是通过酶催化途径将前体转化为高附加值化合物。传统人工设计生物合成途径耗时费力,而计算方法的介入显著提升了这一过程的效率。本文从生物大数据、逆合成分析和酶工程三大维度,系统梳理了当前最前沿的计算工具及其应用场景。
1. Introduction
合成生物学借鉴工程学模块化思想,通过理性设计生物系统解决实际问题。代谢工程作为其重要分支,致力于改造微生物以合成高价值分子(如抗癌药物、生物燃料)。然而,生物系统的复杂性和未知相互作用迫使研究者反复进行DBTL循环。以抗疟疾前体青蒿素为例,其开发耗费150人年工作量。计算方法的引入正逐步改变这一局面,尤其体现在生物合成途径设计的三大关键环节。
2. Biological big-data
生物大数据的质量直接决定计算方法的有效性,主要包括三类数据库:
2.1. 化合物数据库
PubChem(1.19亿化合物)、ChEBI(小分子注释)、ChEMBL(250万生物活性分子)等提供化合物结构与性质信息。天然产物专用数据库如NPAtlas、LOTUS、COCONUT则聚焦药物发现领域。
2.2. 反应/通路数据库
KEGG整合基因组与代谢通路数据;BKMS-react整合BRENDA、MetaCyc等多源反应数据;Reactome提供分子事件交互信息;DrugBank、HMDB专注药物代谢研究。这些资源为通路设计提供反应蓝图。
2.3. 酶数据库
UniProt(2.5亿蛋白序列)、BRENDA(酶功能数据)、AlphaFold DB(AI预测结构)构成酶工程的基础。尤其AlphaFold3的发布,使未解析结构的酶也能获得高精度模型。
3. Methods of retrosynthetic analysis
逆合成分析工具可分为三类:
3.1. 模板法
基于已知反应规则(如RetroPath2.0提取KEGG/Rhea规则),优势在于高准确性和可解释性,但创新性受限。例如RetroBioCat使用135个SMARTS模式成功预测52条文献通路。
3.2. 无模板法
将逆合成视为"分子翻译"任务(如SCROP采用Transformer架构),Top-1准确率达59%,但可能产生无效SMILES字符串。BioNavi-NP对天然产物的通路预测准确率比传统方法高1.7倍。
3.3. 半模板法
分两步解构目标分子(如G2GS先识别反应中心再补全合成子),兼具创新性与可行性。RetroXpert在USPTO-50k数据集上Top-1准确率达70.4%。
4. Methods for enzyme engineering
4.1. 酶筛选
针对特定底物,Selenzyme通过反应相似性筛选候选酶;DLKcat则利用深度神经网络预测kcat
值,已评估300万酶-底物对。
4.2. 功能发现
CLEAN通过对比学习预测未注释卤化酶,实验验证36个新型酶;ECRECer通过多智能体框架将EC编号预测准确率提升70%。
4.3. 从头设计
AlphaFold3与RFDiffusion生成蛋白骨架,ProteinMPNN设计序列。实验证明24%的AI设计苹果酸脱氢酶(MDH)具有可溶性。
4.4. 性能优化
FireProt-ASR提升卤代烷脱卤酶热稳定性;AlloSigMA2解析磷酸果糖激酶(PFK)变构调控机制,助力糖酵解途径改造。
5. Conclusions and further perspectives
当前挑战包括数据标准化不足、逆合成预测的语法错误、酶动态行为难以预测等。未来方向建议:构建统一知识图谱整合代谢-反应-宿主数据;开发生成式AI探索新型生物化学反应;结合自动化实验平台加速DBTL循环。这场计算与生物的实验联姻,正将合成生物学从试错时代推向理性设计的新纪元。
生物通微信公众号
知名企业招聘