计算进化驱动的新型螺旋蛋白设计:AlphaFold2与判别网络协同探索蛋白质折叠新空间

《Communications Chemistry》:Designing novel solenoid proteins with in silico evolution

【字体: 时间:2025年12月05日 来源:Communications Chemistry 6.2

编辑推荐:

  本研究针对传统螺旋蛋白设计方法效率低、难以生成特定折叠结构的问题,开发了一种结合AlphaFold2(AF2)与螺旋判别网络SOLeNNoID的“计算进化”平台。该研究成功从头设计了新型α-螺旋和β-螺旋蛋白,并通过实验验证了其正确折叠与高稳定性,为按需设计具有特定折叠和功能的蛋白质提供了新范式。

  
蛋白质是生命活动的主要执行者,其功能很大程度上由其独特的三维结构决定。在自然界中,存在一类结构规整、像弹簧或线圈一样的蛋白质,被称为螺旋蛋白(Solenoid Proteins)。它们由相似的结构单元像串珠一样重复排列而成,根据构成单元的主要二级结构,可分为α-螺旋、β-螺旋和αβ-螺旋等类型。这类蛋白质因其模块化的结构和延伸的表面,在DNA结合、信号传导、抗冻等方面发挥着重要作用,同时也被认为是构建新型生物材料、纳米器件和药物的理想支架。然而,传统的蛋白质设计方法耗时耗力,难以高效地创造出具有特定折叠方式的新型螺旋蛋白。
近年来,深度学习技术,特别是AlphaFold2 (AF2)的出现,彻底改变了我们对蛋白质结构预测的认识,也为蛋白质设计带来了革命性的工具。随之兴起的“幻觉”(Hallucination)和“扩散”(Diffusion)等生成方法,能够从头创造全新的蛋白质结构。但是,这些方法在生成过程中往往缺乏对特定蛋白质折叠类型的精确控制,要么生成的结构多样性有限,要么严重依赖于已知的天然结构作为模板。一个核心挑战在于:我们能否像“按图索骥”一样,根据想要的折叠类型,直接设计出全新的、稳定的蛋白质?特别是对于结构复杂、易于错误折叠和聚集的β-螺旋蛋白,其设计成功率一直很低。
为了解决这些问题,由Daniella Pretorius和James W. Murray等人组成的研究团队在《Communications Chemistry》上发表了他们的最新研究成果。他们开发了一个名为“计算进化”(in silico evolution)的创新平台,该平台巧妙地将AF2作为结构“预言家”,与一个专门识别螺旋蛋白的深度学习网络SOLeNNoID相结合,并通过遗传算法来优化蛋白质序列,从而实现了针对特定螺旋折叠类型的从头设计。
研究人员采用了几项关键的技术方法来驱动这项研究。核心是“计算进化”平台,它使用遗传算法优化随机起始的重复序列,以AF2预测的结构置信度(pLDDT)和SOLeNNoID判定的螺旋蛋白得分作为双重指导进行迭代优化。序列重新设计则依赖于蛋白质序列生成模型ProteinMPNN,以提升序列的合理性和可合成性。结构新颖性通过Foldseek进行大规模结构比对,并使用多维缩放(MDS)进行可视化分析。实验验证是另一大支柱,包括小规模和大规模蛋白质表达与纯化(使用Ni-NTA亲和层析和尺寸排阻色谱SEC)、圆二色谱(CD)分析二级结构和热稳定性、以及X射线晶体学来解析高分辨率结构。此外,还引入了一项名为“计算熔解”(in silico melting)的新指标,利用ESMFold评估蛋白质结构对序列扰动的鲁棒性,以预测实验成功率。对于β-螺旋蛋白,还特别采用了ProteinGenerator来设计末端封端(capping)区域,以解决其末端疏水表面暴露的问题。
计算进化平台用于螺旋蛋白设计
研究团队开发的计算进化平台,其核心流程始于一个由N个长度为L的重复单元串联而成的随机序列。该序列的结构由AF2预测,然后由一个成本函数进行评分,该函数综合了AF2的pLDDT置信度和SOLeNNoID网络给出的特定螺旋类型(α、β或αβ)概率。通过遗传算法(采用Wright-Fisher选择策略)对序列池进行迭代优化,直到达到预设的评分阈值。结果表明,该平台能够高效生成高质量的螺旋蛋白骨架,其中β-螺旋收敛速度最快,总体设计成功率高达99%。生成后的序列会进一步使用ProteinMPNN进行重新设计,以引入序列多样性、改善物化性质,并确保其可用于基因合成。
设计的螺旋蛋白跨越天然和新型结构空间
一个关键问题是,该平台是只能复现已知的天然螺旋结构,还是能够创造真正新颖的折叠?通过将设计的螺旋蛋白结构与蛋白质数据库(PDB)中的天然螺旋蛋白进行大规模结构比对,并利用多维缩放(MDS)进行可视化,研究人员发现设计的α-螺旋和αβ-螺旋蛋白不仅覆盖了已知的结构空间,还探索了此前未被观测到的新区域,显示出平台强大的创新潜力。然而,所有设计的β-螺旋蛋白都呈现出单一的右手螺旋特性,这与天然β-螺旋中左右手兼有的情况不同,暗示AF2模型对于高重复序列可能存在结构预测偏差。通过TM-score定量评估结构新颖性,约22%的α-螺旋和25%的αβ-螺旋可被视为新折叠(TM-score <0.5),而所有β-螺旋设计均与已知结构高度相似。在序列层面,通过MMseqs2与非冗余数据库(nr)比对,绝大多数设计的序列(α-螺旋99.7%,αβ-螺旋84.5%,β-螺旋64.3%)都被认定为新颖序列(E-value >10-5),表明新骨架能够支持与天然无关的全新序列。
设计螺旋蛋白的生物物理表征
研究人员从平台生成的121个可设计骨架中,选取了24个设计(涵盖10个不同骨架,每个骨架有3-4个MPNN重设计序列)进行实验验证。结果显示,α-螺旋蛋白的表现最为出色:所有6个α-螺旋设计均成功克隆并表达,其中5个产生了可溶性蛋白。这5个α-螺旋蛋白在尺寸排阻色谱(SEC)中均呈现单一的单体峰,圆二色谱(CD)证实其具有典型的α-螺旋二级结构,并且热稳定性极高,在90°C下仍能保持结构。尤为重要的是,其中一个名为A_1_1的设计获得了2.8 ?分辨率的X射线晶体结构,其Cα骨架与设计模型的RMSD仅为0.89 ?,高度一致,且序列在数据库中无显著同源物,证实了平台设计全新且稳定蛋白质的能力。与之形成鲜明对比的是,第一轮测试中的所有αβ-螺旋和β-螺旋设计均未能获得单分散的SEC峰或正确的CD谱图,实验成功率为0,突显了设计β-链占主导的蛋白质的巨大挑战。
评估预测实验结果的指标
鉴于第一轮实验中高AF2置信度设计仍遭遇失败,研究团队回顾性分析了多种计算指标预测实验成败的能力。他们发现,传统的AF2或ESMFold质量指标(如pLDDT, pAE)在区分成功与失败的设计上效果不彰。然而,新引入的“计算熔解”指标——即结构在ESMFold预测中能耐受的序列掩码比例的中值(Succ50)——显示出显著差异。成功设计的Succ50值显著高于失败设计。这表明,对序列扰动具有更强鲁棒性的结构,其实验成功的可能性更高。此外,与天然蛋白质的结构相似性(TM-score)也是一个有显著性的指标,但区分度较小。
带封端设计的β-螺旋蛋白的实验验证
针对初始β-螺旋设计的失败,研究人员推测缺乏有效的末端封端是导致其不稳定和聚集的关键原因。他们开发了一个新的流程,使用ProteinGenerator为已有的β-螺旋骨架专门设计N端和C端封端区域。在应用了更严格的过滤标准(包括Succ50 >71%)后,他们选取了17个带封端的β-螺旋设计进行实验。结果取得了重要突破:7个设计表达了可溶性蛋白,其中两个设计(Bcap_8_1和Bcap_8_2)的CD谱图显示出典型的β-链二级结构,并且热稳定性高达90°C。虽然晶体结构未能最终解析,但其能形成晶体本身是蛋白质正确折叠的有力佐证。这使得β-螺旋设计的实验成功率从0%(0/12)提升到了12%(2/17)。
本研究成功开发并验证了一种基于计算进化的蛋白质设计新方法,能够特异性地从头生成具有预定折叠类型的螺旋蛋白。该工作不仅证明了幻觉方法在可控蛋白质设计中的有效性,特别是对于α-螺旋蛋白取得了很高的实验成功率,还深刻揭示了当前AI设计工具在应对β-链主导蛋白质时所面临的挑战,如AF2可能存在的结构预测偏差和β-蛋白固有的折叠难题。通过引入末端封端设计和“计算熔解”等新型过滤指标,研究为改善β-蛋白设计提供了可行的解决方案。这项研究标志着我们在向着根据特定功能需求“定制”蛋白质的终极目标迈进了一大步,为未来设计更复杂、功能化的新型蛋白质材料与工具奠定了坚实的基础。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号