编辑推荐:
鉴定和表征分泌的毒力蛋白是破译微生物致病性的基础。在这里,作者介绍了一个实用的训练框架,通过对比学习整合生物特征和先验信息来提高蛋白质语言模型的表征。
融合语言嵌入与生物特征的对比学习:跨模态编码与效应蛋白预测的新突破
近期,来自华东理工大学生物反应器工程国家重点实验室的 Yue Peng、Junze Wu、Yi Sun 等研究人员在《Nature Communications》期刊上发表了题为 “Contrastive-learning of language embedding and biological features for cross modality encoding and effector prediction” 的论文。这一研究成果在微生物致病性解析和治疗策略开发领域意义重大,为深入理解细菌致病机制以及开发新型治疗方法提供了关键的技术支持和理论依据。
一、研究背景
革兰氏阴性菌分泌的效应蛋白在其感染过程中发挥着不可或缺的作用,是细菌致病性的关键因素。例如,沙门氏菌和柠檬酸杆菌的 III 型分泌效应蛋白(T3SE)能在宿主细胞内形成强大的毒力网络,操纵宿主免疫反应;嗜肺军团菌分泌的 IV 型分泌效应蛋白(T4SE)可帮助细菌在巨噬细胞内建立安全的复制环境;霍乱弧菌的 VI 型分泌效应蛋白(T6SE)既能杀死邻近病原体以竞争生存,又能利用宿主免疫反应促进自身定植。因此,准确识别和表征这些效应蛋白,对于深入理解微生物致病性以及开发新的治疗策略至关重要。
目前,虽然通过实验筛选方法不断有新的效应蛋白被发现,但这些方法存在劳动强度大、耗时久的问题,且易受蛋白质表达和分泌水平的影响。近十年来,机器学习技术逐渐应用于效应蛋白预测领域。早期方法直接将蛋白质信息转化为便于机器处理的特征来构建初步模型,近年来则有不少模型尝试采用先进的编码技术提升预测性能。然而,由于已知效应蛋白的规模有限,且许多效应蛋白在序列和结构上缺乏相似性,导致模型从相对较小的数据集中学习稳健特征的效率较低,预测的准确性和敏感性仍有待提高。
预训练蛋白质语言模型(PLMs)的出现为效应蛋白预测带来了新的希望。基于注意力机制,PLMs 能够有效捕捉蛋白质的进化和序列特征,在相对较小的数据集上直接应用 PLMs 特征可显著提升效应蛋白分类任务的性能。但 PLMs 在训练过程中忽略了大量实验数据中的直接特征,且除了氨基酸序列衍生的特征外,蛋白质结构和注释等信息也对效应蛋白的识别至关重要。因此,将实验生物学信息整合到 PLMs 中成为进一步提高预测性能的有前景的方向。
二、研究材料和方法
(一)数据集收集
研究使用的数据集包含对比学习预训练数据集和效应蛋白分类训练测试数据集。预训练数据集中的无标签蛋白质主要来源于其他效应蛋白预测模型的训练评估数据集及相关蛋白质数据库,在此基础上,研究人员还从 UniProt 随机抽取 4000 条经过审核的蛋白质序列,从 VFDB 抽取 1000 条毒力相关蛋白质序列,以增加数据多样性。利用 MMseqs 软件对序列进行聚类去重,最终得到包含 10831 条蛋白质的数据集。同时,收集多种模态数据用于特征生成,如从 AFDB 和 UniProt 获取蛋白质的结构 PDB 文件和注释文本文件,通过 ClustalO 和 PSI-BLAST 生成多序列比对(MSA)和位置特异性打分矩阵(PSSM)数据等。效应蛋白分类训练测试数据集则来自最新发表的效应蛋白预测研究成果,训练集包含多种类型的效应蛋白和非效应蛋白,测试集用于评估模型性能。
(二)模型架构
研究提出的 CLEF 模型由对比学习模块和效应蛋白预测模块组成。对比学习模块包含两个编码器(Encoder A 和 Encoder B),负责将蛋白质序列表示与生物特征对齐。其中,Encoder A 是一个两层的 Transformer,用于将 ESM2 生成的蛋白质表示处理为跨模态特征;Encoder B 是一个简单的多层感知器(MLP),用于将生物特征映射为 128 维的嵌入向量。在下游预测模块中,使用带有层归一化的 MLP 网络,根据跨模态蛋白质表示预测效应蛋白。
(三)特征工程
研究共使用了 10 种生物特征与 ESM2 表示进行对比学习训练,以获得不同的跨模态表示。这些特征包括进化特征(MSA、DPC-PSSM)、注释特征(Annotation-Text)、结构特征(3Di)、其他分类器输出特征(Secretion Embedding)以及实验特征(RNAseq、ECP、Tnseq)。例如,Secretion Embedding 由 DeepSecE 模型训练得到,反映 T1 - 4SE 和 T6SE 蛋白的类型;3Di 特征通过 Foldseek 将 AFDB 中的预测结构转换为 3Di - 字母序列,再由 ProstT5 编码为 1024 维向量;RNAseq 特征则从嗜水气单胞菌的转录组数据中提取,反映基因表达水平差异。
(四)模型训练
对比学习模块和分类预测模块分开训练。在对比学习训练阶段,使用 InfoNCE 损失函数在未标记的预训练集上训练两个编码器,采用自适应矩估计(Adam)优化器,学习率设为
,训练 20 个 epoch。分类预测模型则在标记的效应蛋白数据集上训练,使用二元交叉熵(BCE)作为损失函数,同样采用 Adam 优化器,学习率为
,并使用早停法防止过拟合,最大训练轮数为 65 轮。
(五)性能评估
通过多种指标评估模型性能。使用调整兰德指数(ARI)、归一化互信息(NMI)和平均轮廓宽度(ASW)评估聚类结果,以判断输出的跨模态表示能否反映输入模态中的样本关系;在独立测试集上使用准确率(ACC)、召回率(REC)、精确率(PR)、F1 分数(F1)和马修斯相关系数(MCC)评估模型对效应蛋白分子的分类能力。此外,将 CLEF 模型与七种现有的效应蛋白预测模型进行基准测试对比,以验证其性能优势。
三、研究结果
(一)CLEF 是基于对比学习的深度学习框架
研究人员提出的 CLEF 模型利用对比学习范式,将预训练语言模型的蛋白质表示与生物模态特征相结合。在模型架构中,定义了两个专门的编码器模块,分别对 PLM 表示和生物模态特征进行编码。通过对比学习,CLEF 能够学习到输入模态特征与 PLM 表示之间的相关性,生成协调的跨模态表示。在细菌效应蛋白预测任务中,CLEF 的训练分为预训练阶段和监督分类训练阶段,预训练阶段学习跨模态表示,之后将这些表示输入分类器网络进行训练,得到相应的预测模型。
(二)CLEF 有效整合不同模态特征信息
为验证 CLEF 模型能否有效识别蛋白质跨模态表示,研究人员引入了三种不同类型的蛋白质模态特征进行对比训练。通过在包含 10831 个蛋白质样本的数据集上进行对比学习预训练,并在标记数据集上评估聚类性能,结果表明:与原始 ESM2 表示相比,输入 Secretion Embedding 特征并经对比学习后,CLEF 输出的表示能形成与效应蛋白类别相符的明显聚类;以蛋白质注释和 GO 术语编码的 Annotation Text 特征经对比训练后,CLEF 能从注释文本中捕获关键效应蛋白信息,聚类性能显著提升;利用蛋白质结构信息训练的 CLEF,在捕捉蛋白质结构相似性方面表现出色,其聚类性能在 ASW 和 ARI 指标上优于 ESM2 和 3Di 特征。这些结果说明 CLEF 的对比学习框架可增强对多种蛋白质模态的表示能力,生成更具信息性的跨模态表示。
(三)CLEF 表示提升效应蛋白预测任务模型性能
研究人员用 4 种输入特征结合 ESM2 表示训练 CLEF,并将获得的表示输入下游网络训练分类器。在独立测试集中,与基线模型 ESM2 和单个模态特征相比,CLEF 学习的双跨模态表示展现出更好的整体模型能力。例如,在 T3SE 预测中,结合 DP 和 AT 特征训练的 CLEF - DP/AT 表示性能最佳,其 ACC 从基线模型的 0.977 提升到 0.985,F1 从 0.900 提升到 0.936,MCC 从 0.888 提升到 0.928;在 T4SE 和 T6SE 预测中,结合多种模态特征训练的 CLEF - DP/MSA/3Di/AT 表示分别取得了最优性能。此外,通过五折交叉验证评估模型的稳健性,结果显示不同模态组合的 15 种 CLEF 表示在交叉验证中表现稳定,且 CLEF - DP/MSA/3Di/AT 在 T6SE 预测中的表现显著优于其他单个蛋白质模态特征,表明 CLEF 能产生更稳健的结果,其整合多种蛋白质模态的表示可提升在 T3SE、T4SE 和 T6SE 预测任务中的模型性能。
(四)基于 CLEF 的分泌效应蛋白预测器达到 SOTA 性能
将在 T3SE、T4SE 和 T6SE 预测任务中表现最佳的 CLEF 模型与现有最先进(SOTA)的效应蛋白预测模型进行基准测试对比。在独立测试集中,选择 2 种多分类预测器和 6 种二分类模型进行性能比较。结果表明,使用 CLEF 表示的预测器在预测性能上与当前 SOTA 模型相当,甚至在多个指标上更优。例如,在 T3SE 预测中,CLEF 模型的 ACC 为 0.989,F1 为 0.951,MCC 为 0.944,优于其他 4 种测试的 T3SE 预测器;在 T4SE 预测中,CLEF 的 ACC 达到 0.992,F1 为 0.966,MCC 为 0.962,超过了 DeepSecE、T4SEpp 等模型;在 T6SE 预测中,CLEF 的 ACC、F1 和 MCC 均达到 1.000,性能高于其他模型。进一步的比较还发现,CLEF 在遇到多种类型效应蛋白时保持较低的假阳性率,在更复杂的全基因组预测场景中具有更高的准确性。在多个数据集上的训练和测试结果也表明,CLEF 在大多数测试数据集上获得了比 SOTA 模型更好的整体性能,具备强大的蛋白质分类能力。
(五)消融研究
研究人员对 CLEF 模型进行了消融研究,评估模型中各个组件对性能的贡献。结果显示,输入序列长度对不同类型效应蛋白的预测有不同影响,较短的输入序列(128 个氨基酸)有利于 T3SE 预测,而较长的序列(512 个氨基酸)对 T4/T6SE 预测更有利,最终选择 256 个氨基酸作为平衡各任务性能的最大输入长度。当将编码器模块中的 Transformer 块替换为简单的 MLP(一个隐藏层)时,虽然预训练框架在一定程度上提高了效应蛋白预测性能并缩短了训练时间,但整体性能略有下降,表明 Transformer 在捕捉跨模态特征方面更高效。此外,通过生成非重叠的预训练数据集评估模型的泛化能力,发现 CLEF 的跨模态表示在处理更新样本时仍能提升性能,且将 CLEF 应用于其他已知 PLMs 时,也能提高这些 PLMs 的性能,说明 CLEF 具有一定的泛化性,可与多种 PLMs 有效集成用于更广泛的蛋白质分类任务。
(六)CLEF 助力在嗜水气单胞菌中发现 T3SE 和 T6SE
利用 CLEF 模型,研究人员对几种重要的肠道病原体进行了潜在分泌毒力因子的预测,如肠出血性大肠杆菌、鼠伤寒沙门氏菌和嗜水气单胞菌。在大肠杆菌 O157:H7 str. Sakai 和鼠伤寒沙门氏菌 str. LT2 中,CLEF 成功识别了大部分实验验证的 T3SE 同源物。对于嗜水气单胞菌,由于原始训练数据集中关于其 T3SE 的信息有限,研究人员通过集成 6 个使用不同跨模态表示的模型进行预测,并对排名靠前的 15 个潜在效应蛋白进行实验验证。通过 Western blot 和腺苷酸环化酶(CyaA)检测,发现 8 个预测的 T3SE 和 5 个预测的 T6SE 具有相应的分泌和转运特征。与其他预测方法相比,CLEF 在发现效应蛋白方面表现更优,能识别出一些其他方法难以检测到的效应蛋白。
(七)与实验数据的对比训练生成增强效应蛋白预测的表示
研究人员假设实验数据中隐藏着预测蛋白质效应蛋白的关键特征,利用基于转座子插入测序(Tn - seq)、EsrB 转录组分析和细胞外蛋白质组(ECP)数据生成的特征,输入 CLEF 进行对比训练,得到了 CLEF - Tnseq、CLEF - RNAseq、CLEF - ECP 和 CLEF - EXP 等跨模态表示。与基于基线 ESM2 表示的预测相比,这些基于实验特征训练的 CLEF 模型能识别出更多的效应蛋白,且一些在基线模型中被误判或预测分数低的效应蛋白,在 CLEF - ECP 和 CLEF - RNAseq 模型中能被准确预测。通过进一步的实验验证,又发现了 8 个效应蛋白,包括 3 个 T3SE 和 5 个 T6SE,表明利用来自实验特征的不同跨模态表示能有效揭示更多效应蛋白。
(八)CLEF 阐释潜在的效应蛋白 - 效应蛋白相互作用
识别效应蛋白之间的相互作用对于理解其详细工作机制至关重要。研究人员利用 CLEF 生成的蛋白质表示,开发了一种预测效应蛋白相互作用的模型 CLEF - EEI。通过在包含 34985 个蛋白质的 Dockground 数据库上训练,该模型能够区分蛋白质之间的相互作用和非相互作用。将其应用于预测嗜水气单胞菌中的效应蛋白相互作用,发现预测结果与已知的相互作用对具有较高的一致性,且通过 AlphaFold 3 验证了一些预测的相互作用对具有较高的可信度,表明 CLEF 能够准确阐释潜在的效应蛋白 - 效应蛋白相互作用。
(九)结合 CLEF 和条件必需性模式分析的少样本学习框架揭示嗜水气单胞菌体内毒力决定因素
受 CLEF 能够整合蛋白质序列特征中生物特性的启发,研究人员将其与之前用于识别嗜水气单胞菌体内关键毒力因子的条件必需性模式分析(PACE)技术相结合,开发了一种少样本学习方法。通过提取 PACE 中的时间分辨模式特征并输入 CLEF,生成与每个基因定植表型相关的跨模态表示,再基于此计算未知基因与已知毒力基因的余弦相似度,以预测潜在的毒力因子。通过这种方法,研究人员在嗜水气单胞菌中确定了 387 个潜在毒力因子,其中包括 87 个之前由 PACE 鉴定的毒力因子。KEGG 分析表明,其他潜在基因富集在与毒力相关的途径中。通过对这些预测基因进行实验验证,发现多个基因的突变体在巨噬细胞感染实验中表现出显著的定植能力减弱,且通过 CRISPRi - seq 数据分析也证实了这些基因对嗜水气单胞菌在宿主体内定植的重要性,从而成功揭示了嗜水气单胞菌体内的毒力决定因素。
四、研究结论与讨论
本研究提出的 CLEF 框架基于对比学习,将特定的蛋白质生物学知识与通用的 PLM 表示(ESM2)相结合,有效生成了更具信息性和判别力的表示,在 T3/T4/T6SE 预测任务中表现优于 ESM2 和现有模型。在嗜水气单胞菌中,利用 CLEF 实验验证了 23 个潜在的 T3/T6SE,且发现了一些具有潜在转录调节作用的效应蛋白,同时对部分特殊表型的效应蛋白的分泌和转运机制提出了进一步研究的方向。
与传统特征融合技术相比,CLEF 仅在预训练阶段使用多模态特征,避免了预测阶段重复的特征提取过程,且能利用更多未标记蛋白质样本增强特征,在模型表示和判别能力上具有明显优势。此外,CLEF 还将语言模型的应用扩展到其他毒力因子预测任务,基于 PACE 数据开发的少样本学习方法能够识别出潜在的体内定植必需基因,克服了传统 Tn - seq 筛选的局限性。
总体而言,通过对比学习获得的 CLEF 表示在效应蛋白预测中比直接特征连接表现更优、更稳健。CLEF 框架为蛋白质相关的机器学习任务提供了新的思路,在深度学习与生物学数据结合方面取得了重要进展,未来研究可进一步优化该框架,并探索其在效应蛋白靶点预测和效应蛋白 - 效应蛋白相互作用网络建模等更深入任务中的应用。这一研究成果为微生物致病机制研究和新型治疗策略开发提供了有力的工具和理论基础,有望推动相关领域的进一步发展。