
-
生物通官微
陪你抓住生命科技
跳动的脉搏
综述:蛋白质表达能否被“解决”?
【字体: 大 中 小 】 时间:2025年06月04日 来源:TRENDS IN Biotechnology 14.3
编辑推荐:
这篇综述探讨了利用机器学习(ML)预测可溶性蛋白质表达的挑战与前景。文章指出当前领域缺乏高质量数据集(如多物种标准化表达数据),并提出了构建可扩展实验平台的路径,强调该模型将极大推动基础研究(如CRISPR/Cas系统开发)、蛋白质工程和生物制造(如单抗生产)领域发展。作者团队建议以大肠杆菌(E. coli)和毕赤酵母(P. pastoris)为起点,通过单重(SPX)与混合检测(如Sort-seq)结合的方法生成ML就绪数据,最终实现从氨基酸序列预测表达水平的突破。
异源蛋白表达是现代生物技术的核心,从基础研究(如CRISPR/Cas56-59系统开发)到工业应用(如胰岛素生产)均依赖于此。然而,当前蛋白质表达仍处于“经验指导的试错”阶段,成功率低下导致大量资源浪费。以单克隆抗体生产为例,表达失败可能直接导致5.5亿美元规模的药物研发项目终止。这种困境的核心在于缺乏能够整合内在(如氨基酸序列决定的折叠性)与外在因素(如宿主菌株选择)的预测模型。
构建预测模型面临两大挑战:其一,蛋白质表达涉及转录、翻译、折叠等多步骤级联反应(见图1);其二,现有数据集存在严重碎片化问题。例如TargetTrack数据库虽包含30万个蛋白质表达记录,但实验条件描述非结构化,难以直接用于ML训练。相比之下,作者提出的新数据集需满足四大标准:规模性(>104数据点)、多宿主覆盖(至少E. coli和P. pastoris)、实验标准化(如统一使用HiBiT标签检测)以及FAIR原则(可查找、可访问、可互操作、可重用)。

在宿主选择上,大肠杆菌BL21(DE3)因其高转化效率(>109 CFU/μg DNA)和丰富的遗传工具成为首选,而毕赤酵母GS115则适用于需要真核翻译后修饰的蛋白。检测方法上,混合检测策略展现独特优势:
借鉴AlphaFold40的成功经验,作者提出三级建模策略:
在生物制造领域,可溶性表达预测将直接降低生产成本。以工业酶为例,表达量提升2倍可使每公斤产物纯化成本从1200美元降至400美元。更激动人心的是,该技术能解锁“微生物暗物质”资源——通过预测来自不可培养微生物的蛋白表达(如深海古菌CAZymes),有望发现新型生物催化剂。正如作者强调:“解决蛋白质表达问题,相当于为合成生物学提供了通用翻译器”。
生物通微信公众号
知名企业招聘