
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于均值偏差树结构Parzen估计器的安全蛋白质序列设计优化方法研究
【字体: 大 中 小 】 时间:2025年07月30日 来源:Scientific Reports 3.8
编辑推荐:
本研究针对蛋白质工程中模型优化(MBO)存在的过度探索不可靠区域问题,开发了均值偏差树结构Parzen估计器(MD-TPE),通过整合高斯过程(GP)预测偏差作为惩罚项,实现了在训练数据邻近区域的可靠优化。研究团队在GFP亮度优化和抗体亲和力成熟任务中验证了该方法能有效避免非表达序列的产生,并成功获得高亲和力抗体变异体,为蛋白质工程提供了安全高效的优化框架。
在蛋白质工程领域,设计具有特定功能的蛋白质序列犹如大海捞针。传统的试错方法不仅耗时耗力,更面临着天文数字般的序列搜索空间挑战。虽然机器学习辅助的模型优化(MBO)技术为这一难题带来了曙光,但现有方法存在一个致命缺陷——代理模型往往会过度自信地预测远离训练数据分布的序列性能,导致大量无效的非功能性蛋白质产生。这种现象在抗体工程中尤为突出,因为抗体表达对序列变化极其敏感,稍有不慎就会导致整个分子失去折叠能力。
日本中外制药株式会社(Chugai Pharmaceutical Co., Ltd.)的研究团队在《Scientific Reports》发表的研究中,创新性地将金融领域的风险控制理念引入蛋白质设计。他们开发的均值偏差树结构Parzen估计器(MD-TPE)通过整合高斯过程(GP)预测的不确定性信息,巧妙地在探索性和可靠性之间找到了平衡点。该方法的核心在于将GP预测的均值μ(x)与标准差σ(x)组合成均值偏差(MD)目标函数:MD=ρμ(x)-σ(x),其中ρ为风险容忍参数。这种设计使得优化过程自动规避高不确定性区域,将搜索范围限制在模型预测可靠的序列空间内。
研究采用了三项关键技术:1)基于蛋白质语言模型(TAPE)的序列嵌入表示;2)结合Matern和线性核的高斯过程回归建模;3)改进的树结构Parzen估计器(TPE)优化框架。在GFP亮度优化任务中,研究人员构建了包含1128个双突变体的训练集,通过五折交叉验证比较了不同嵌入模型的性能。抗体亲和力成熟实验则采用Expi293F瞬时表达系统和Octet HTX生物层干涉技术,对设计的抗MarvelD3抗体进行表达和结合力检测。
【MD-TPE showed safe optimization in the GFP brightness task】
通过限制训练集为亲本avGFP的两个突变体以内,研究模拟了实际蛋白质工程中的起始条件。结果显示MD-TPE探索的序列平均突变数显著低于传统TPE(图2c),且GP预测偏差保持在较低水平(图2f)。虽然两组方法获得的最高亮度相当,但MD-TPE提出的序列在表达可靠性上表现更优,其中96.9%的序列突变数不超过4个,远低于TPE组的突变范围。
【Safe exploration explores reliable region in the anti-MarvelD3 antibody affinity maturation task】
在抗体设计任务中,差异更为显著。传统TPE倾向于选择GP均值高但偏差也大的序列,这些序列在t-SNE可视化中远离训练数据分布(图3d)。相反,MD-TPE提出的序列紧密聚集在已知数据附近,平均GP偏差降低43.2%(图3c)。这种差异直接决定了后续实验的成功率——MD-TPE设计的48个抗体全部成功表达,而TPE设计的抗体几乎全部无法表达(图4a)。
【Experimental evaluation of anti-MarvelD3 antibody using MD-TPE】
湿实验验证显示,MD-TPE设计的抗体不仅保持高表达水平,其中5个变体的结合亲和力甚至超过了训练集中的最佳值(图4b)。分析发现表达水平与GP偏差呈强负相关(r=-0.82),而与GP均值呈弱相关(r=0.31),证实了σ(x)作为可靠性指标的有效性。值得注意的是,MD值本身与表达量呈现最高相关性(r=0.89),表明该指标能同时兼顾活性和可开发性。
这项研究的意义不仅在于开发了MD-TPE这一实用工具,更重新定义了蛋白质工程中的优化范式。通过将预测不确定性量化为目标函数的一部分,研究人员成功规避了模型优化中的"分布偏移陷阱"。在生物医药应用层面,该方法特别适合抗体药物开发等对序列敏感性高的场景,能显著降低研发过程中的资源浪费。研究也揭示了蛋白质语言模型嵌入对预测精度的影响,发现TAPE和ESM系列模型在不同任务中各具优势,为后续研究提供了模型选择参考。尽管当前方法在序列生成多样性方面存在局限,但其安全优化的核心理念为下一代蛋白质设计算法的发展指明了方向。
生物通微信公众号
知名企业招聘