编辑推荐:
本文提出了一种新颖的蛋白质编辑方法 ProtET(多模态 CLIP 引导的蛋白质编辑技术)。通过多模态学习,它能在酶催化活性、蛋白质稳定性和抗体特异性结合能力等多方面优化蛋白质,为实际人工蛋白质编辑提供有力支持,具有重要研究价值。
### 引言
蛋白质作为生物系统的关键组成部分,承担着众多维持生命活动的重要功能。在漫长的数十亿年进化历程中,蛋白质的序列和结构不断演变,这种变化深刻影响着其功能特性。蛋白质编辑,这一自然发生的过程,逐步拓展了蛋白质结构和功能的多样性,为人类可控地探索和优化蛋白质提供了宝贵线索。
人工蛋白质编辑技术模拟自然进化过程,在医疗健康领域取得了显著进展。在癌症疫苗研发中,它能够精准调整蛋白质序列或结构,开发出更有效且低毒的个性化药物;在基因治疗方面,该技术借助可编程核酸酶,实现对活细胞和生物体内遗传信息的精确切割与粘贴。然而,蛋白质编辑面临着可控性难题,因为可能的蛋白质空间远远大于具有期望功能的蛋白质子集,同时实现人与蛋白质之间有效 “沟通” 也困难重重。
过去二十年,多种用于翻译后蛋白质修饰(PTMs)的方法涌现,旨在人工编辑氨基酸以增强蛋白质的特定属性。近年来,基于机器学习的方法在蛋白质相关应用中展现出巨大潜力,蛋白质语言模型(PLMs)在大规模蛋白质序列数据集上进行预训练后,能有效获取强大的蛋白质表征。受 CLIP(对比语言 - 图像预训练)在图像 - 文本检索等领域成功应用的启发,本文提出了 ProtET 这一通用蛋白质编辑方法,它通过学习蛋白质与自然语言之间的跨模态映射,实现可控的蛋白质编辑。
方法
ProtET 是一种多模态深度学习模型,它融合生物语言和自然语言编码,并执行跨模态生成以实现可控蛋白质编辑。
首先,构建蛋白质 - 生物文本配对数据集。从 Swiss - Prot 和 TrEMBL 数据库下载蛋白质序列及注释信息,选取 “Protein Name”“Function”“Subcellular Location”“Biological Process”“Similarity” 这 5 个属性字段的信息,与蛋白质序列进行细致对齐。经过筛选,最终得到 67,972,109 个用于多模态预训练的蛋白质 - 生物文本对齐对。
接着进行多模态预训练。利用基于 Transformer 编码器的大语言模型(LLMs),分别采用 ESM - 2 作为蛋白质序列编码器,PubMedBERT 作为生物文本描述编码器。通过对比学习目标,使蛋白质和生物文本的特征空间对齐。在对比学习过程中,模型最大化正确配对的蛋白质和生物文本嵌入的相似性分数,最小化错误配对的相似性分数,优化对称交叉熵损失。
然后是蛋白质编辑生成阶段。利用 FiLM 模块融合原始蛋白质序列和编辑指令文本的多模态特征,将融合后的特征作为最终编辑条件。使用 12 层 Transformer 解码器构建生成式解码器,以自回归方式生成编辑后的蛋白质序列。训练时,以无监督方式使生成的蛋白质与编辑指令文本的特征相似度更高,同时引入正则化项避免模型崩溃。
在实现细节方面,使用具有 6500 万个可训练参数的 ESM - 2 基础版本编码蛋白质序列,具有 1 亿个可训练参数的 PubMedBERT 编码生物文本。将蛋白质序列和生物文本分别填充或截断为固定长度 1024 和 512,投影到 512 维的公共特征维度,温度系数 τ 设为 0.01。整个框架在 16 个 NVIDIA 32G V100 GPU 上进行训练,批量大小为 128,训练 10 个 epoch,学习率初始化为 5.0×10-5 ,并进行 2000 步线性热身。
结果
在蛋白质功能分类实验中,使用 4 个标准蛋白质功能分类基准数据集,包括酶委员会(EC)、基因本体生物过程(GO - BP)、基因本体分子功能(GO - MF)和基因本体细胞成分(GO - CC)。以传统模型(CNN、ResNet、LSTM、Transformer)和单模态预训练的 PLMs(ProtBERT、ESM - 1b、ESM - 2)等为基线,ProtET 在 8 个评估指标中的 6 个上达到了最先进的性能,证明多模态蛋白质 - 生物文本预训练有助于提升对蛋白质功能的理解。
在酶催化活性编辑实验中,以公开的 PhoQ 数据集为对象,该数据集包含 140,517 个在 4 个位点(A284、V285、S288、T289)的酶,并标注了催化活性分数。将酶数据集按功能高低分为不同子集,从各子集采样进行蛋白质编辑测试。t - SNE 可视化结果显示,经 ProtET 编辑后,中、低和零功能的酶子集向高功能酶子集靠近,表明编辑后的酶在催化活性上有显著提升。
蛋白质稳定性编辑实验中,使用包含稳定性注释的蛋白质序列集进行评估。采用单突变游走方法(Single - Mutant)、AFP - DE、EvoPlay 等作为基线。通过计算编辑指令文本与编辑后蛋白质序列表示之间的余弦相似度,以及训练 MLP 作为预测稳定性分数的 “oracle” 这两种方式评估蛋白质稳定性。结果表明,ProtET 生成的编辑后蛋白质序列在两种评估标准下稳定性最高,且有 16.67% 和 16.90% 的蛋白质稳定性得到显著增强。
在零样本 SARS - CoV 抗体优化实验中,从 CoV - AbDab 中随机抽取 100 个结合 SARS - CoV - 1 或 SARS - CoV - 2 的抗体,对抗体 CDR - H3 区域进行随机氨基酸替换引入噪声,然后用 ProtET 编辑。使用 AlphaFold3 和 tFold 预测抗体 - 抗原复合物的 3D 结构,以预测模板建模分数(pTM)、界面 pTM(ipTM)和预测局部距离差异测试(pLDDT)作为评估指标。ProtET 在所有指标上优于基线模型,优化后的抗体能形成稳定的 3D 结构与抗原结合。
通过对蛋白质稳定性编辑数据集进行消融研究,验证了构建的蛋白质 - 生物文本配对数据集、多模态预训练阶段和 FiLM 模块对模型性能的重要性,其中多模态预训练阶段缺失导致性能下降最为明显。
讨论
蛋白质分子经过 30 亿年的进化具有极高的多样性,实现可控的蛋白质发现和优化仍是一项艰巨挑战。ProtET 通过蛋白质 - 生物文本多模态学习,提出了一种新颖的蛋白质编辑分层范式,包括多模态预训练和跨模态生成。它能够利用文本功能描述作为编辑指令,灵活应用于增强蛋白质的多种属性,在多个功能属性优化实验中表现出色。
然而,ProtET 也存在一些局限性。首先,以自然语言作为编辑指令可能存在精度不足的问题;其次,训练蛋白质编辑生成器时未更新预训练大规模编码器的参数,未来可考虑采用参数高效微调(PEFT)方法;最后,自回归生成方式在设计指定序列长度的蛋白质时存在缺陷,需要探索更先进的生成范式。
结论
实现可控的蛋白质发现和优化是生物研究、临床医学和生物技术领域的重要任务。ProtET 作为一种基于深度学习的方法,通过大规模多模态预训练对齐蛋白质和生物文本特征空间,成功实现了跨模态蛋白质编辑。设计的目标蛋白质在酶催化活性、蛋白质稳定性和抗体特异性结合能力等多方面展现出优化的功能属性,有望推动实际场景中可控蛋白质发现和优化目标的实现。