编辑推荐:
研究人员开发 MosPro 算法解决多目标蛋白质序列设计难题,有效平衡多属性,助力蛋白质工程发展。
蛋白质序列设计的挑战与机遇
在生命科学的微观世界里,蛋白质就像一个个精密的纳米机器,它们的功能和特性在很大程度上取决于自身的氨基酸序列。随着机器学习(ML)技术的飞速发展,从蛋白质序列预测其各种属性(如结合亲和力、稳定性、催化活性等)已取得显著进展。然而,反向设计具有特定属性的蛋白质序列,却成为了一个极具挑战性的难题。
传统的实验室方法,如定向进化,通过随机诱变和重组来寻找具有更好特性的蛋白质序列。但这种方法就像是在茫茫大海里捞针,效率极低,因为蛋白质序列空间极其庞大,一个长度为 L 的蛋白质可能有 20L种不同的序列组合,而其中大部分序列对应的蛋白质可能并没有功能。
为了加速蛋白质工程的发展,科研人员尝试利用 ML 方法来探索这个巨大的序列空间。虽然一些生成性 ML 模型能够对自然存在的蛋白质序列进行学习和采样,但这些方法往往只能在设计完成后评估序列的属性,而不是在设计过程中进行优化,导致找到具有增强属性蛋白质的成功率较低。并且,大多数现有方法只能针对单一属性进行优化,而在实际的生物医学应用中,如抗体设计,往往需要同时优化多个属性,像抗体的热稳定性、溶解性和表达性等,这些属性之间还可能存在相互冲突的情况 。
在这样的背景下,来自佐治亚理工学院(Georgia Institute of Technology)的研究人员开展了一项旨在解决多目标蛋白质序列设计问题的研究,其成果发表在《iScience》上,为蛋白质工程领域带来了新的希望和方向。
研究采用的关键技术方法
研究人员开发了 MosPro(multi-objective sequence design for proteins),这是一种基于深度学习的多目标蛋白质序列设计框架。首先,他们训练了多个特定属性的监督 ML 模型,这些模型能够根据蛋白质序列预测其感兴趣的属性。然后,MosPro 从一组初始序列开始,利用一种离散采样算法,在训练好的属性预测器的引导下,迭代地优化序列,使得多个属性能够同时得到优化。为了实现多属性的同时优化,MosPro 通过帕累托优化算法,找到一个最优的梯度更新方向,使得所有属性都能得到最大程度的提升,最终得到帕累托最优的设计序列 。
在构建评估数据集时,研究人员将实验测定的蛋白质属性与通过生物物理模型或蛋白质语言模型计算得到的其他属性(如稳定性和自然 ness)相结合,创建了四个多属性序列设计任务的基准数据集。在评估 MosPro 的性能时,研究人员将其与几种强大的基线方法进行比较,包括单属性优化的离散序列设计方法 GGS、将多属性目标简化为单目标的线性标量化方法以及多目标优化的遗传算法 NSGA - 2。
研究结果
- MosPro 实现帕累托最优的多属性设计:在四个设计任务中,MosPro 都展现出了显著的属性增强能力。与线性标量化方法相比,MosPro 能够在序列空间中直接找到同时增强多个属性的最优序列更新方向,而不需要手动指定平衡属性的权重。与 GGS 相比,MosPro 可以同时优化多个属性,而不是像 GGS 那样在优化一个属性时牺牲其他属性。与 NSGA - 2 相比,MosPro 在大多数情况下能够提供更好的设计,更有效地探索序列空间,识别出增强多个属性的突变 。
- MosPro 有效增强多种属性:通过对 MosPro 设计的序列进行分析,发现它能够将随机选择的低分数起始序列进化为具有明显改进属性的序列。例如,在 GFP - 稳定性任务中,MosPro 设计的变体不仅荧光亮度提高了近两倍,而且结构稳定性也逐渐增强,达到了与野生型相当的水平。在 ParD3 的两个任务中,MosPro 设计的序列能够快速达到帕累托前沿,优化多个属性。在 GB1 - 稳定性任务中,尽管 GB1 的适应度属性分布存在很大挑战,但 MosPro 仍然有效地增强了适应度和稳定性 。
- MosPro 设计的序列具有结构可行性:研究人员利用 AlphaFold2 对 MosPro 生成的帕累托最优序列进行 3D 结构预测和评估。以 GFP - 稳定性任务为例,MosPro 设计的变体在大多数残基上都具有较高的 pLDDT 分数,表明其结构有效性良好,与野生型结构相比,在实现更好适应度的同时,pLDDT 分数相当 。
研究结论与意义
MosPro 为多目标蛋白质序列设计提供了一种创新的范式,它能够有效地平衡多个蛋白质属性,在蛋白质工程领域具有重要的应用潜力。通过训练单独的序列到属性预测器,MosPro 可以直接在蛋白质序列空间中进行操作,找到能够同时增强多个属性的最优序列突变。这种方法避免了传统线性标量化方法的局限性,不需要手动调整权重,能够更准确地找到帕累托最优解。
然而,MosPro 也存在一些局限性。其性能受到序列到属性预测器准确性的影响,当属性景观复杂或实验测量数据不足时,准确建模蛋白质序列 - 属性关系仍然是一个挑战。此外,MosPro 使用的离散采样算法在平滑的景观上表现更好,而蛋白质属性景观往往是高度崎岖的。未来的研究可以通过生成和整理更大、高质量的功能表征蛋白质变体数据集,或开发适用于低样本设置的数据高效 ML 模型来解决这些问题。
总体而言,MosPro 为多目标蛋白质设计提供了一个强大的工具,有望加速湿实验室中的蛋白质设计过程,在药物设计、抗体优化和酶工程等领域发挥重要作用,帮助研究人员设计出更高效、更具功能的蛋白质,推动生命科学和健康医学领域的进一步发展。