《Advanced Science》:Discriminator-Guided Inverse Folding for Multi-Property Protein Design
编辑推荐:
面向实际应用的蛋白质设计需要同时满足多种物理学化学性质。基于结构的从头蛋白质设计(Structure-based de novo protein design)已成为主流设计范式,成功创造了众多蛋白质。性质优化通常在蛋白质设计的序列生成阶段引入,即基于给定骨架
面向实际应用的蛋白质设计需要同时满足多种物理学化学性质。基于结构的从头蛋白质设计(Structure-based de novo protein design)已成为主流设计范式,成功创造了众多蛋白质。性质优化通常在蛋白质设计的序列生成阶段引入,即基于给定骨架结构的逆折叠(Inverse Folding, IF)。现有方法主要通过对逆折叠模型进行微调(Fine-tuning)来设计具有特定性质的序列。然而,通过微调实现多属性优化需要标注多种属性的数据集,而这类资源仍然极为有限。因此,基于结构的蛋白质设计尚未实现多种属性的联合优化。在此,研究人员提出判别器引导逆折叠(Discriminator-Guided Inverse Folding, DGIF),该框架通过辅助判别器模块调整逆折叠模型的内部历史状态(History States)来引导模型。判别器集成多个属性预测器,每个预测器独立在单属性数据集上训练,从而在没有多属性标注数据集的情况下实现多属性优化。除了在热稳定性和溶解度等关键特性上取得显著提升外,DGIF能够同时生成针对两种性质均优化的蛋白质序列,使设计的蛋白质明显向代表最优权衡的帕累托前沿(Pareto Front)移动。实验结果验证了DGIF在多属性蛋白质设计中的有效性。
蛋白质设计旨在创造新的功能性蛋白质以应对医疗健康、农业和可持续发展等领域的挑战。近年来,基于结构的从头设计取得了显著进展,使研究人员能够生成在实验室条件下执行目标功能的蛋白质。然而,许多设计出的蛋白质缺乏实际应用价值,主要原因是实际应用需要额外的蛋白质性质。例如,工业酶通常在较高温度下使用以确保催化效率,而其溶解度对于通过重组表达系统进行高效生产至关重要。因此,将性质优化整合到基于结构的设计中,对于将设计的蛋白质转化为实际应用具有重要意义。
大多数蛋白质特性对序列敏感。性质优化通常在蛋白质设计的序列生成阶段解决,即基于给定骨架结构的逆折叠。近期研究尝试通过监督微调(Supervised Fine-Tuning, SFT)和直接偏好优化(Direct Preference Optimization, DPO)等方法微调逆折叠模型,以生成具有期望性质的蛋白质序列。然而,这些方法实现多种性质联合优化仍面临挑战,因为它们依赖于标注多种属性的数据集,而这类资源极为稀缺。值得注意的是,许多性质如溶解度和热稳定性本质上是相互冲突的:增强一种特性的突变往往损害另一种特性。这使得多目标优化尤为困难。鉴于其对提升蛋白质设计实用性的重要性,亟需能够同时优化多种且往往相互竞争性质的方法。
为解决上述挑战,研究人员提出判别器引导逆折叠(DGIF),该框架通过辅助判别器模块调整逆折叠模型的内部历史状态来引导序列生成。判别器集成多个属性预测器,每个预测器独立在单属性数据集上训练,从而在没有多属性标注数据集的情况下实现多属性优化。这种基于引导的框架不需要对逆折叠模型进行任何进一步训练或修改,可以以即插即用方式集成到现有逆折叠模型中。研究人员采用ESM-IF1模型作为基础逆折叠架构实现DGIF。除在热稳定性和溶解度等关键特性上取得显著提升外,DGIF能够同时生成针对两种性质均优化的蛋白质序列,使设计的蛋白质明显向代表最优权衡的帕累托前沿移动。体外实验验证了DGIF的有效性,凸显了其判别器引导策略将序列生成与多属性控制相结合的能力,这是迈向实用蛋白质设计的关键一步。
研究人员所采用的关键技术方法包括:基于ESM-IF1的逆折叠模型架构;辅助判别器模块通过反向传播调整解码器历史状态;独立训练的热稳定性预测器和溶解度预测器分别基于Megascale数据集和Khurana等收集的数据集;用于多目标优化的加权系数策略;Kullback-Leibler(KL)散度约束以保持结构可行性;分子动力学(MD)模拟验证设计蛋白质的热稳定性;以及针对Rhodococcus ruber醇脱氢酶(RrADH)的实验验证。
逆折叠模型部分介绍了序列生成的基本原理。现有方法采用编码器-解码器框架,编码器从骨架坐标X中提取结构信息,解码器以自回归方式预测条件概率p(Y|X)。在每个时间步t,解码器接收编码器产生的结构编码E
x以及封装先前生成序列上下文的历史状态H
t,产生中间表示o
t+1,再通过线性输出层W投影为概率分布p
t+1,从而采样下一个氨基酸y
t+1。
DGIF框架部分阐述了其核心机制。逆折叠模型在天然蛋白质结构上以最大化天然序列对数似然为目标训练,主要优化序列可折叠性而缺乏对特定性质的明确引导。DGIF引入辅助判别器调整H
t以引导序列生成过程。判别器利用属性预测器评估生成序列是否满足目标性质,并将信号反向传播以影响生成轨迹。具体而言,判别器使用属性预测器估计给定H
t和E
x条件下生成序列满足性质a的概率p(a|o
t+1(H
t,E
x)),通过迭代更新ΔH
t使生成序列向更高性质满足概率移动。更新规则为ΔH
t ← ΔH
t + α/γ · ?
Ht log p(a|o
t+1(H
t+ΔH
t,E
x)),其中α为步长,γ为归一化因子。对于多目标优化,判别器集成多个预测器p(a
i|o
t(H
t+ΔH
t,E
x)),通过权重系数β
i联合更新H
t,灵活调整各属性的相对影响以平衡竞争目标。更新后的历史状态经前向传播生成下一个氨基酸。该过程在每个时间步重复,无需改变逆 folding模型的任何参数。基于此框架,研究人员实现了DG-Thermo(优化热稳定性)、DG-Sol(优化溶解度)和DG-Dual(同时优化两种性质)三种变体。
设计增强热稳定性的蛋白质部分展示了DG-Thermo的性能。热稳定性提升是长期重要目标,因大多数天然蛋白质仅在温和条件下功能,限制了其工业应用价值。研究人员构建热稳定性预测器量化突变对热稳定性的影响,使用ESM-IF1的表示作为输入,在Megascale数据集(含超过700,000个实验测量的突变-稳定性配对)上训练,并在FireProt和S669两个独立基准上评估泛化能力。与FoldX、Rosetta、ThermoNet和ThermoMPNN等方法相比,该预测器取得显著更低的均方根误差(RMSE),与ThermoMPNN表现相当。在S669基准上,该预测器Pearson相关系数达0.491,优于原始ESM-IF1和ESM-IF1(DPO)。基于此预测器开发的DG-Thermo在Megascale测试集上评估,该测试集包含86个蛋白质的所有可能单残基突变实验测量热稳定性变化(ΔΔG)。以平均top-K召回率为指标,DG-Thermo在所有K值上均优于ESM-IF1。序列设计成功率方面,对每个测试集骨架结构生成100条序列,成功标准设为预测ΔΔG > 1.0 kcal/mol且预测折叠结构与天然结构RMSD < 2 ?,DG-Thermo在所有长度区间均显著高于ESM-IF1。结构分析显示DG-Thermo设计的蛋白质含有更多盐桥和疏水相互作用,且氨基酸组成变化与已知耐热性特征一致:Leu、Pro、Arg、Trp增加,Asp、Lys、Met、Gln减少,表明判别器引导过程内在捕获了与耐热性相关的序列和结构特征。
通过分子动力学模拟评估设计蛋白质的热稳定性部分进一步验证了DGIF框架。研究人员选取工业应用广泛的木聚糖酶作为代表性例子,对DG-Thermo设计变体、ESM-IF1设计变体和野生型木聚糖酶进行100 ns的450 K高温MD模拟。结果显示,热冲击后所有DG-Thermo设计变体基本保持初始结构,而ESM-IF1设计变体和野生型均出现明显结构坍塌;DG-Thermo设计变体保持更低且更收敛的RMSD(均<5 ?),且二级结构保留率>83.28%,显著优于野生型的71.13%和ESM-IF1设计变体的65.91%。此外,从CATH4.3数据集随机采样的十个蛋白质支架的MD模拟也一致显示DG-Thermo设计变体具有增强的热稳定性。
热稳定性定向进化案例的回顾性分析部分考察了DG-Thermo对实验保留突变和变体的优先排序能力。研究人员选择枯草杆菌蛋白酶E(PDB 1SCJ)和Thermus麦芽糖淀粉酶(PDB 1SMA)两个系统,对报道进化轨迹中保留的每个突变,枚举该位点所有19种非野生型替换并排序。在1SCJ案例中,DG-Thermo将8个保留突变中的5个排名第一;1SMA案例中,7个保留突变中的3个排名第一、4个排在前五,而ESM-IF1通常给予较低排名。对多突变体变体的对数似然分析显示,DG-Thermo对最终成功多突变体赋予显著高于野生型的对数似然,而ESM-IF1变化接近零,且多突变体的对数似然增益不等于各单突变效应的简单加和,表明DG-Thermo以依赖上下文的方式评估组合变体。
设计增强溶解度的蛋白质部分介绍了DG-Sol。蛋白质溶解度对重组应用中的高浓度使用至关重要。溶解度预测器采用与热稳定性预测器类似的架构,在Khurana等收集的数据集(28,972条可溶、40,448条不可溶序列)上训练,以Chang等整理的独立测试集(1000条可溶、1001条不可溶序列)评估。该预测器准确率0.72、Matthews相关系数(MCC)0.42,优于SoluProt和PROSSO II,与DeepSol相当。基于此构建的DG-Sol在SoluProtMutDB数据集上的平均top-K召回率在所有K值上均优于ESM-IF1。序列设计成功率方面,以预测溶解度高于野生型且RMSD < 2 ?为标准,DG-Sol在所有蛋白质长度范围均显著高于ESM-IF1。在Koehler Leman等整理的膜蛋白数据集上,DG-Sol设计的蛋白质表面极性残基比例显著高于ESM-IF1,验证了其增强溶解度的有效性。
同时增强热稳定性和溶解度的蛋白质设计部分展示了DG-Dual的核心能力。工业酶等实际应用需要同时满足高稳定性和良好溶解度,但这两个性质通常存在明显权衡。DG-Dual通过直接集成热稳定性和溶解度预测器到ESM-IF1序列生成过程中实现双属性优化。在100个随机采样的CATH4.3骨架结构上,DG-Dual在所有长度范围均保持高成功率,而ESM-IF1表现不佳。在Megascale测试Set和SoluProtMutDB数据集上的平均top-K召回率显示,DG-Dual在两个数据集上均优于ESM-IF1,且同时应用两个预测器时的表现与单属性优化几乎相同,表明框架能在保持单属性优化能力的同时实现有效的多目标平衡。更重要的是,与ESM-IF1相比,DG-Dual生成的蛋白质明显向代表稳定性与溶解度最优权衡的帕累托前沿移动,展示了通过协调引导实现双属性优化的能力。
DG-Dual的实验验证部分以Rhodococcus ruber醇脱氢酶(RrADH)为案例进行了湿实验验证。RrADH是广泛应用于不对称合成的有机溶剂耐受氧化还原酶,但异源表达时溶解度低限制了其工业应用。DG-Dual基于RrADH骨架结构进行序列重设计,通过比较预测氨基酸概率与天然序列鉴定关键突变,选取10个单点突变进行实验验证。在大肠杆菌中表达后,所有DG-Dual设计变体相对于野生型均显示增强的溶解度,9个变体OD
450/630值提高超过50%(4个超过80%);8/10个变体熔解温度(Tm)高于野生型。特别地,A50E突变使OD
450/630值翻倍同时Tm提高2.79°C,S223A突变使Tm提高6.47°C同时OD
450/630值提高74%,证明了DG-Dual有效实现多种物理学化学性质的同时优化。
讨论部分总结了DGIF框架的核心优势与局限。DGIF通过辅助判别器模块引导逆折叠模型的序列生成,集成独立训练于单属性数据集的多属性预测器,在没有多属性标注数据集的情况下实现多属性优化。系统在热稳定性和溶解度两种本质冲突的性质上实现了单属性显著提升和双属性联合优化,设计明显向帕累托前沿移动,体外实验验证了同时优化能力。该框架仅干预序列生成过程中的历史状态,保留基础模型的参数和架构;引入KL散度约束确保性质优化不损害结构可行性。研究人员观察到热稳定性和溶解度损失的收敛速度存在差异,通过超参数搜索为不同性质分配不同权重系数以解决此不平衡问题。
DGIF为不需要联合标注多属性数据集的多属性蛋白质设计提供了灵活策略,但其性质控制能力仍依赖于用于引导的单属性预测器的可靠性,而后者受限于相应性质的标注数据可获得性。对于蛋白质丰度、聚集倾向等公共数据相对丰富的性质,可利用现有数据集训练预测器扩展;对于催化活性、底物特异性等更专业的性质,公共数据往往较少且更具系统依赖性,此时DGIF更适合系统特定优化,可能需要额外实验数据获取可靠引导信号。减少实验标注数据集依赖的可能途径是纳入基于物理或经验的评分信号,如Rosetta和FoldX等已用于评估结合亲和力和折叠稳定性的评分函数,可作为属性相关引导信号整合到判别器引导生成过程中。
研究结论指出:研究人员提出判别器引导逆折叠(DGIF),通过在逆折叠过程中引入辅助判别器模块调整内部历史状态,实现了多属性蛋白质设计。判别器集成的多个属性预测器可在单属性数据集上独立训练,从而无需多属性标注数据集即可实现多目标优化。该研究系统评估了DGIF在热稳定性和溶解度两种冲突性质上的表现,结果证明其不仅在单属性优化中实现显著提升,还能有效平衡性质间的权衡。与未引导的ESM-IF1相比,DGIF引导的设计明显向帕累托前沿移动,接近稳定性与溶解度的最优权衡。重要的是,体外实验证实DGIF能够同时优化目标蛋白的热稳定性和溶解度。