综述:蛋白质表达能否被“解决”?

【字体: 时间:2025年06月04日 来源:TRENDS IN Biotechnology 14.3

编辑推荐:

  这篇综述探讨了利用机器学习(ML)预测可溶性蛋白质表达的挑战与前景。文章指出当前领域缺乏高质量数据集(如多物种标准化表达数据),并提出了构建可扩展实验平台的路径,强调该模型将极大推动基础研究(如CRISPR/Cas系统开发)、蛋白质工程和生物制造(如单抗生产)领域发展。作者团队建议以大肠杆菌(E. coli)和毕赤酵母(P. pastoris)为起点,通过单重(SPX)与混合检测(如Sort-seq)结合的方法生成ML就绪数据,最终实现从氨基酸序列预测表达水平的突破。

  

蛋白质表达的“黑箱”困境

异源蛋白表达是现代生物技术的核心,从基础研究(如CRISPR/Cas56-59系统开发)到工业应用(如胰岛素生产)均依赖于此。然而,当前蛋白质表达仍处于“经验指导的试错”阶段,成功率低下导致大量资源浪费。以单克隆抗体生产为例,表达失败可能直接导致5.5亿美元规模的药物研发项目终止。这种困境的核心在于缺乏能够整合内在(如氨基酸序列决定的折叠性)与外在因素(如宿主菌株选择)的预测模型。

突破瓶颈:数据驱动的解决方案

构建预测模型面临两大挑战:其一,蛋白质表达涉及转录、翻译、折叠等多步骤级联反应(见图1);其二,现有数据集存在严重碎片化问题。例如TargetTrack数据库虽包含30万个蛋白质表达记录,但实验条件描述非结构化,难以直接用于ML训练。相比之下,作者提出的新数据集需满足四大标准:规模性(>104数据点)、多宿主覆盖(至少E. coli和P. pastoris)、实验标准化(如统一使用HiBiT标签检测)以及FAIR原则(可查找、可访问、可互操作、可重用)。

实验设计的技术路线

在宿主选择上,大肠杆菌BL21(DE3)因其高转化效率(>109 CFU/μg DNA)和丰富的遗传工具成为首选,而毕赤酵母GS115则适用于需要真核翻译后修饰的蛋白。检测方法上,混合检测策略展现独特优势:

  • Sort-seq技术:通过荧光激活细胞分选(FACS)分析GFP1-10/GFP11互补片段荧光强度,单次可筛选104变异体
  • 肽段条形码(flycodes):质谱可区分多达106种独特标签,但存在技术封闭性问题
    值得注意的是,所有高通量数据需经Bradford法等“金标准”验证,以控制技术误差在±15%以内。

机器学习模型的进化路径

借鉴AlphaFold40的成功经验,作者提出三级建模策略:

  1. 监督学习:以DNA序列和宿主为输入,可溶性蛋白浓度为输出
  2. 无监督预训练:利用ESM49等蛋白质语言模型提取序列嵌入特征
  3. 迁移学习:将E. coli表达数据迁移至CHO细胞等真核系统
    基准测试显示,当前最佳模型ProteinNPT在ProteinGym数据集上的斯皮尔曼相关系数仅0.637,表明仍有显著提升空间。未来可通过整合密码子适应指数(CAI)、Rosetta自由能等特征进一步优化。

产业化应用的曙光

在生物制造领域,可溶性表达预测将直接降低生产成本。以工业酶为例,表达量提升2倍可使每公斤产物纯化成本从1200美元降至400美元。更激动人心的是,该技术能解锁“微生物暗物质”资源——通过预测来自不可培养微生物的蛋白表达(如深海古菌CAZymes),有望发现新型生物催化剂。正如作者强调:“解决蛋白质表达问题,相当于为合成生物学提供了通用翻译器”。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号