《PLOS Computational Biology》:Controllable protein design via autoregressive direct coupling analysis conditioned on principal components
编辑推荐:
这篇综述的核心在于突破传统蛋白质设计统计模型的“黑箱”生成限制,提出了一种名为FeatureDCA的新框架。该框架将主成分分析(PCA)等生物学特征嵌入到自回归直接耦合分析(ArDCA)中,实现了对生成序列在特征空间(如主成分空间)内位置的可控引导。研究验证了该方法在维持序列统计真实性、结构保真度(通过AlphaFold/ESMFold验证)与功能约束(通过深度突变扫描(DMS)评估)的同时,能够定向生成特定结构亚类(如响应调节因子(RR)家族不同二聚化模式)的蛋白质序列,为具有明确结构或功能目标的精细化蛋白质设计提供了一条高效、可解释的新路径。
引言
设计具有特定功能的新型蛋白质是计算生物学和蛋白质设计领域的核心挑战。基于进化数据的统计模型,特别是从多序列比对(MSA)衍生的模型(如基于Potts模型的直接耦合分析(DCA)及其自回归变体ArDCA),已成功捕获了自然蛋白质家族的统计、结构和功能约束。然而,这些模型在标准无条件下采样时,生成的序列主要反映训练数据的全局统计特性,缺乏引导生成过程朝向用户定义特征(如特定结构亚类)的能力。尽管蛋白语言模型(PLM)和扩散模型等新方法展现出强大的生成能力,但它们通常需要海量数据、计算资源巨大,且缺乏可解释性,难以明确地在统计框架内实现基于特征的生成条件化。
方法
本研究提出了FeatureDCA,这是对自回归直接耦合分析(ArDCA)框架的扩展,能够将生物学相关特征(在本文中,为从多序列比对(MSA)计算得到的主成分(PC))作为条件输入嵌入到模型中。其核心是在标准的Potts模型能量函数中,增加了耦合特征向量与氨基酸特征嵌入向量的项。模型通过最大似然估计进行训练,参数数量与多序列比对(MSA)长度的平方成正比。生成采样时,从给定的特征向量出发,以前后依赖的方式,依次采样每个位点的氨基酸,从而实现高效、可解释的、面向特定特征空间位置的序列生成。
结果
生成能力
FeatureDCA能够生成在统计上与自然序列无法区分的序列,准确地复现了自然多序列比对(MSA)的配对频率统计量和主成分(PCA)分布。如图2所示,在β-内酰胺酶家族(PF13354)中,FeatureDCA生成的主成分(PCA)分布与最先进的模型(bmDCA和ArDCA)相当或更优,其生成的序列与自然数据的连通相关性皮尔逊系数也更高。研究同时指出,当使用的主成分数量接近能解释数据集99%方差的维度(d99)时,模型会过度拟合,导致生成序列与训练序列的汉明距离趋近于零,丧失泛化能力。
原位生成
FeatureDCA的核心目标是能够在主成分(PC)空间的特定位置进行序列生成。给定位于PC空间某点的野生型序列,在该点条件下生成的序列,在汉明距离和PC空间欧氏距离上都应与野生型序列相似。如图3所示,随着训练中使用的主成分数量增加,生成序列集群的平均位置会向其目标野生型移动,分布方差减小。从统计学角度看,使用32至128个主成分能在生成准确性和泛化能力之间取得良好平衡。研究还利用AlphaFold和ESMFold评估了生成序列的结构,结果表明在结构预测模型能够准确区分同一家族内不同折叠构象的蛋白质家族(如PF00076)中,FeatureDCA生成的序列能够折叠成与其条件化野生型一致的三维结构。
响应调节因子同源二聚体的案例研究
研究选取细菌响应调节因子(RR)家族(PF00072)作为案例。该家族包含具有不同DNA结合域(Trans_Reg_C、GerE、LytTR)的亚类,分别对应不同的二聚化几何构型。如图5所示,这些亚类的实验结构间存在显著的根均方偏差(RMSD)。多序列比对(MSA)的主成分分析(PCA)投影显示,这三个亚类在序列空间形成了清晰的聚类(图6)。当使用各类别对应实验结构的PC坐标作为条件输入生成新序列后,用AlphaFold 3折叠这些序列,并将其结构与三个野生型参考结构进行比较。如图7所示,随着使用的主成分数量增加,生成序列的结构与条件化所用同类别野生型结构的RMSD降低,而与其他类别结构的RMSD则趋近于实验测得的类别间差异。这表明FeatureDCA能够有效引导生成过程朝向预定的结构亚类。但性能存在差异,训练集中占比最大的Trans_Reg_C类重现效果最好,而占比较小的LytTR类在低维条件下易与其他类别混淆。
通过计算机深度突变扫描预测突变效应
另一个关键评估是模型捕捉突变有害效应的能力。在TEM-1 β-内酰胺酶家族(PF13354)上,通过比较模型预测的突变评分(基于序列概率的变化)与实验测定的适应性评分,评估了FeatureDCA的性能。如图8所示,当使用较少主成分进行条件化时,FeatureDCA的预测性能(斯皮尔曼秩相关系数)与无条件化的ArDCA基线相当(约0.6)。随着主成分数量增加,相关性呈现非单调变化,先下降后回升,表明条件化维度与突变信号预测之间存在复杂的权衡关系。
讨论
总而言之,FeatureDCA是一个将可解释的统计模型与灵活、基于特征的蛋白质设计相连接的框架。它通过在自回归DCA中整合低维、具生物学意义的特征(如主成分),实现了对蛋白质序列生成的可控引导。研究证明,该方法不仅能准确复现蛋白质家族的共进化统计和结构特性,生成具有足够多样性的新序列,还能针对性地生成特定结构亚类(如响应调节因子不同二聚化模式)的序列。同时,它在突变效应预测方面也保持了竞争力。FeatureDCA为基于进化数据的、目标明确的蛋白质序列生成提供了一个强大、高效且透明的平台,在功能探索、结构建模和合成生物学中具有广泛应用潜力。