多模态学习蛋白质-蛋白质相互作用以准确预测结合亲和力
《ACS Omega》:Multimodal Learning of Protein–Protein Interactions for Accurate Binding Affinity Prediction
【字体:
大
中
小
】
时间:2025年11月20日
来源:ACS Omega 4.3
编辑推荐:
研究提出多模态框架Multi_PPBA,整合1D序列与3D结构信息(含残基、背链、侧链原子),通过不变点注意力机制捕捉几何和物理化学特征,显著提升蛋白质-蛋白质结合亲和力预测性能,尤其在突变体数据集上表现优于现有方法。
蛋白-蛋白相互作用是许多生物过程中的核心媒介。准确预测蛋白-蛋白结合亲和力对于指导这些相互作用的调控至关重要,因此在治疗开发和药物发现中具有重要作用。然而,现有方法往往仅依赖于序列信息或过于简化的结构表示,忽略了如侧链相互作用等关键细节。本研究中,我们引入了一种多模态框架,该框架整合了1D蛋白序列信息和3D结构信息(包括残基、主链原子和侧链原子),以构建蛋白质复合物的全面表示。通过利用这种丰富且层次化的表示,我们的模型能够有效捕捉蛋白质复合物的几何和物理化学信息。广泛实验评估表明,我们的方法在预测亲和力方面表现出与现有方法相比具有竞争力的性能。
蛋白质是生物细胞中的基本组成部分,在协调和调控多种生物过程中发挥着关键作用。超过80%的蛋白质被认为会与其他蛋白质发生物理相互作用,而不是单独起作用。这些蛋白-蛋白相互作用(PPIs)对于关键的细胞活动,如DNA复制和转录、信号传导、免疫反应、代谢调控和酶促催化等至关重要。深入理解PPIs不仅有助于揭示潜在的分子机制和蛋白质功能,还支持药物发现工作,通过识别有效的靶点并实现高通量筛选和合理设计有前景的治疗候选药物。例如,严重急性呼吸系统综合征冠状病毒2(SARS-CoV-2)通过其刺突(S)蛋白与人类ACE2受体之间的相互作用侵入人体细胞。通过筛选具有高结合亲和力的中和抗体,可以竞争性地阻断刺突与ACE2之间的相互作用,从而实现治疗干预。结合亲和力作为评估这些相互作用强度的关键指标,通常通过平衡解离常数(Kd)来量化,它表示在平衡状态下未结合态与结合态的浓度比。因此,准确预测蛋白-蛋白结合亲和力是一项至关重要的任务。
尽管传统的实验技术在测量结合亲和力方面取得了成功,但这些技术往往成本高昂、通量低且耗时。这些限制推动了计算方法的发展,包括分子对接和分子动力学模拟,以更高效地预测PPIs及其亲和力。然而,这些计算方法常常面临准确性、可靠性和计算成本方面的挑战,突显了需要更先进和高效的预测模型的重要性。一些基于生物物理和统计的方法已经被开发出来用于快速评估亲和力。生物物理方法,如FoldX和HawkDock,通过能量函数采样构象并模拟原子间相互作用来估计亲和力,但必须在效率与预测准确性之间取得平衡。相比之下,统计方法如DFIRE利用几何、物理和进化蛋白描述符,但受限于描述符质量,无法充分利用日益丰富的蛋白结构数据。
近年来,机器学习(ML)和深度学习(DL)在生物科学领域获得了越来越多的关注,并在生物学研究中取得了显著进展。值得注意的成果包括AlphaFold3在准确预测蛋白质结构方面的应用,以及自监督的蛋白质语言模型(PLMs),这些模型在多种蛋白质相关任务中表现出色,包括结构和功能预测。这些成就表明,将深度学习应用于建模蛋白-蛋白相互作用是可行的。一些基于ML和DL的亲和力预测方法已经出现,并可以大致分为基于序列和基于结构的方法。基于序列的方法要么执行端到端的表示学习,要么利用蛋白质语言模型提取丰富的表示用于亲和力预测。例如,ISLAND使用基于BLOSUM的核函数来捕捉对齐相关特征,如最优对齐和局部对齐以及不匹配。Alsamkary等人探索了如何整合蛋白质对的分层信息以提高亲和力预测的准确性。尽管基于序列的方法在缺乏结构数据时具有价值,但仅依赖序列存在固有局限性,因为3D结构在蛋白质相互作用中起主导作用。相比之下,基于结构的方法利用空间信息来更好地捕捉蛋白质相互作用的几何和物理化学背景。例如,PRODIGY基于埋藏表面积和非相互作用表面积提取特征,而CP-PIE则计算重叠和溶剂可及表面积。PPI-Affinity使用多种工具组合生成超过20000维的结构特征,并应用支持向量机进行回归。模型如ProAffinity-GNN和PPBind-3D使用图神经网络(GNNs)来学习残基级别的结构表示。PPI-Graphomer则结合大型蛋白质语言模型和逆折叠模型的特征,使其能够编码进化和结构先验。然而,大多数现有方法并未充分利用蛋白质的几何结构信息。例如,ProAffinity-GNN仅依赖于残基间的距离作为边特征,忽略了关键的几何描述符,如残基取向和二面角,从而仅提供有限的蛋白质相互作用见解。此外,侧链在介导PPIs中起着更关键的作用,因为相互作用主要通过侧链发生,其物理化学特性和空间构型决定了相互作用的强度。尽管如此,当前模型很少显式地包含侧链信息。先前的研究一致表明,探索结构与序列的协同建模可以揭示更深层次的功能见解。
为了解决这些挑战,我们提出了一种有效的模型,称为Multi_PPBA,该模型利用多模态表示框架准确预测蛋白-蛋白结合亲和力。模型通过整合1D蛋白序列信息和3D结构信息(包括残基、主链原子和侧链原子)来构建蛋白质复合物的全面表示。通过处理这些丰富的融合特征,我们的模型能够有效捕捉蛋白质相互作用所需的几何和物理化学信息。本研究的主要贡献如下:
1. 我们提出了一种新颖的多模态框架,通过整合详细的3D结构特征与1D序列信息,构建蛋白质复合物的层次化表示。
2. 我们开发了一种稳健的架构,将这些手工特征与强大的预训练嵌入(如ESM2和ProMIM)融合,利用不变点注意力(IPA)机制有效建模复杂的3D相互作用。
3. 我们通过在两个已建立的基准数据集上进行广泛实验,证明Multi_PPBA在预测亲和力方面达到了与传统能量基评分函数和其他最先进的深度学习方法相比具有竞争力或更优的性能。
我们使用了PDBbind数据库作为主要数据集,该数据库包含蛋白质复合物的结构信息和实验测定的亲和力数据。最新版本(2020年发布)包含2852个样本,每个样本都包括存储在PDB文件中的结构坐标信息和实验测量的亲和力数据,通常以Kd、Ki或IC50形式表达。为了确保一致性和可比性,我们采用了ProAffinity-GNN使用的精炼数据集,该数据集从PDBbind中精选。具体而言,该数据集排除了包含DNA/RNA结构的条目,并去除了标注为Ki和IC50的数据,只保留标注为Kd的数据。此外,链的配体和受体被明确标记,最终的数据集包含1741个PDB条目。数据集被随机分为训练集和验证集,比例为8:2。为了严格评估我们模型的性能,我们将其与现有方法在两个已建立的基准数据集上进行比较。Test Set 1是在PPI-Affinity背景下专门构建用于蛋白-蛋白结合亲和力预测的数据集,已被广泛采用。该数据集包含90个数据点,每个数据点代表由两个蛋白链形成的复合物。我们保留了其中亲和力以Kd形式测量的条目,与ProAffinity-GNN的选择标准一致,最终形成82个样本。为了进一步验证我们方法的有效性,我们在SKEMPI 2.0数据库的一个子集上评估模型。原始的SKEMPI 2.0数据库包含345个野生型蛋白复合物结构和7085个相关突变体,每个突变体都标注了结合亲和力(以Kd形式表达),并附有相应的热力学参数和动力学速率常数的变化。然而,该数据库并未包含突变复合物的结构信息。按照之前建立的协议,我们选择了包含26个野生型和151个突变体的子集。在去除重复结构后,Test Set 2包含26个野生型和140个突变体蛋白-蛋白复合物。对于突变复合物,我们使用FoldX工具生成完整的结构。为了确保数值稳定性和标准化亲和力值,我们将解离常数(Kd)转换为pKa值,通过应用负对数变换。
我们采用四种类型的表示来描述蛋白质复合物:单个表示、配对表示、ESM2序列嵌入和ProMIM的预训练特征。单个表示由三种残基级别的特征组成,包括残基类型、二面角和残基方向。残基类型使用一个可学习的嵌入向量编码每个残基的身份,涵盖所有20种经典的氨基酸和一个用于未知残基的额外标记,形成21维的类型词汇表。残基类型嵌入表示为,其中AA表示蛋白质复合物的序列。二面角包括三个主链二面角(?, ψ, ω)和侧链二面角(χ1, χ2, χ3, χ4),这些角度通过主链和侧链信息计算。这些角度随后使用正弦编码进行嵌入。残基方向采用之前开发的方法,定义了一个局部坐标系Qi = [bi, ni, bi × ni],其中bi是N、Cα和C原子所形成角度的负角平分线,ni是该平面的单位法向量。正式计算为,其中bi表示向量的归一化。方向特征通过计算残基i中其他内原子相对于Cα的相对方向来编码,公式为,其中R ∈ {Ni, Ci, Oi}。
最后,通过获取这三个嵌入向量,单个表示计算为,其中Cat表示在嵌入维度上的拼接操作。配对表示描述了任意两个残基i和j之间的几何和拓扑关系。其组成部分包括:残基对身份、相对序列位置、欧几里得距离、方向、取向和二面角。通过这些嵌入,配对表示计算为,其中Cat表示在嵌入维度上的拼接操作。
为了高效生成序列特征,我们利用了预训练的蛋白质语言模型ESM2(版本:esm2_t33_650M_UR50D)。对于复合物中的每个链,我们提取了最终编码层的输出作为序列表示,每个残基得到一个1280维的向量。此外,我们还利用了预训练的模型ProMIM,该模型在大规模的蛋白质-蛋白质复合物数据集上进行训练,学习到了丰富的层次化结构表示,能够捕捉复杂的相互关系。
我们构建了一个神经网络,包括融合层、不变点注意力层、最大池化层和全连接层,用于预测复合物的结合亲和力。融合模块采用两阶段融合机制,将来自不同模态的输入特征(如ESM2嵌入、ProMIM特征和初始单个表示)进行融合。融合机制应用了一个门控残差连接,以平衡两种特征,公式为,其中f1和f2是从之前提到的特征表示中选择的。这个融合机制确保了不同特征之间的有效整合。
不变点注意力(IPA)模块用于建模3D空间中的残基-残基相互作用。该模块基于AlphaFold进行调整,作用于融合后的单个和配对表示。IPA编码器的输出是更新后的单个表示,该表示基于配对和框架通道中的结构信息进行条件化。
预测头部分,更新后的单个表示通过最大池化层进行聚合。为了提高预测性能和增强鲁棒性,我们将亲和力预测问题框架为分类任务,这与已有的方法一致。分类任务定义为40个bin,亲和力范围为0到15。最终预测的亲和力是每个bin概率的加权平均,权重由每个bin的概率预测决定。为了预测每个亲和力bin的概率,我们应用了层归一化和门控预测头,公式为,其中h是最大池化后的特征向量,K = 40是bin的总数,bi是第i个bin对应的亲和力得分中心值。
在本研究中,我们使用了皮尔逊相关系数(PCC)和平均绝对误差(MAE)来评估模型在蛋白质-蛋白质结合亲和力预测中的性能。结果显示,我们的模型在Test Set 1中表现最佳,PCC为0.629,MAE为1.36 kcal/mol,表明其在亲和力预测方面的优越性。在基线模型中,PPI-Graphomer和ProAffinity-GNN也表现出竞争力,展示了结合结构和图特征的有效性。相比之下,PRODIGY、ISLAND和CP_PIE表现较差,相关系数显著较低,MAE较高,说明它们在复杂蛋白质-蛋白质相互作用模式建模方面存在局限性。这些结果突显了使用多模态表示在提高结合亲和力预测准确性方面的价值。
为了进一步验证我们方法的有效性,我们在Test Set 2上评估了模型,该数据集包含26个野生型和140个突变型蛋白质-蛋白质复合物。值得注意的是,我们的模型并未专门针对包含突变的蛋白质-蛋白质复合物进行训练,但在突变数据集上仍表现出色。具体而言,我们的模型在所有166个复合物上达到了PCC为0.782和MAE为1.20 kcal/mol的性能,优于PPI-Affinity(PCC = 0.780,MAE = 1.40 kcal/mol)和ProAffinity-GNN(PCC = 0.722,MAE = 1.36 kcal/mol)。模型的稳健性能表明其作为现有方法的有力替代,强调了多模态特征和融合策略在增强蛋白质-蛋白质相互作用预测能力方面的价值。
为了验证我们模型框架的有效性,我们进行了消融实验。该研究的主要目标是分析模型中各种特征的重要性,并评估各个组件对整体性能的影响,从而明确它们在蛋白质-蛋白质结合亲和力预测中的贡献。我们比较了完整模型与三种消融版本:不使用ProMIM特征、不使用融合模块、不使用侧链特征和不使用ESM2嵌入。为了确保一致性,所有实验都使用相同的训练参数、数据集和评估指标。
如图4所示,完整模型在两个指标和测试集上都表现出最佳性能,表明整合所有组件的有效性。消除ProMIM特征、融合模块或侧链特征会适度降低模型性能。相比之下,去除ESM2嵌入会导致显著的性能下降,尤其是在Test Set 1中,MAE从约1.35增加到超过1.69,而皮尔逊相关系数从约0.63下降到0.48。这表明ESM2序列嵌入提供了关键的上下文信息,显著提高了模型的预测准确性。
为了更好地理解模型所学习的生物学信息,我们在Test Set 1上绘制了残基对之间的平均注意力分数的热图(图5)。结果表明,疏水残基通常获得更高的注意力权重,突显了非极性接触在结合亲和力中的重要性。有趣的是,涉及半胱氨酸(C)或色氨酸(W)的残基对表现出持续较低的分数。这与结构研究结果一致,显示半胱氨酸很少成为结合界面的热点,而色氨酸,尽管其侧链庞大,与较小的疏水残基相比,不太常见于接触区域。此外,异亮氨酸(I)的注意力高于亮氨酸(L),这与观察到I更可能成为热点残基,尽管它们是异构体,且在结构上相似。综上所述,这些发现表明,模型捕捉了蛋白质-蛋白质相互作用的基本物理化学特征,从而提高了预测的可靠性。
预测蛋白质-蛋白质结合亲和力是计算生物学中的一个有吸引力但具有挑战性的问题。在本研究中,我们提出了一种多模态方法,该方法整合了蛋白质序列和结构信息,包括残基、主链原子和侧链原子的详细表示,以有效捕捉蛋白质-蛋白质相互作用的几何和物理化学模式。我们的方法在亲和力预测方面表现出色,优于现有技术。然而,我们的模型依赖于现有的精炼数据集进行训练和评估。尽管这些数据集具有价值,但实验性标记的结合亲和力测量总体数量仍然非常有限。这种高质量标注数据的稀缺性是训练更准确和广泛泛化的预测模型的主要瓶颈,特别是在未见过的蛋白质类别或新型相互作用类型上。未来的研究可以利用高精度的结构预测工具,如AlphaFold,来建模缺乏实验结构但具有亲和力数据的蛋白质复合物。此外,新兴的生成性人工智能,特别是扩散模型,在生成真实且多样的生物数据方面取得了成功。探索将扩散方法整合到亲和力预测中,是该领域一个有价值且令人兴奋的方向。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号