利用CovalentLab工具对共价药物进行一次性理性设计

《JACS Au》:One-Shot Rational Design of Covalent Drugs with CovalentLab

【字体: 时间:2025年11月04日 来源:JACS Au 8.7

编辑推荐:

  靶向共价药物设计平台CovalentLab整合了配体和武器策略,利用ESM-2微调模型预测9类氨基酸的共价结合位点,支持210种武器的系统化连接,生成超10万种共价分子,并成功应用于TRK和GAC靶点的实验验证。

  在过去的几十年中,靶向共价药物(targeted covalent drugs)展现出了在疾病治疗方面惊人的潜力。然而,现有的共价药物设计方法往往局限于丝氨酸(serine)和半胱氨酸(cysteine)这两种氨基酸,忽视了其他可能的共价结合位点。统计分析表明,超过95%的结合口袋包含可以进行共价结合的氨基酸残基,这表明几乎所有靶向这些口袋的配体都有潜力被改造为共价配体。为了实现这一目标,我们引入了CovalentLab,一个交互式的计算平台,它整合了基于配体和基于战头(warhead)的策略,形成了一个统一的工作流程,用于共价配体的合理设计。利用基于ESM-2构建的共价结合位点预测模型,并通过LoRA微调,CovalentLab能够预测并排序九类共价结合残基,依据其反应性,并系统地将战头连接到配体上。通过该平台,我们生成了一个涵盖95个靶点、超过100,000个共价分子的全面库。值得注意的是,CovalentLab已被成功应用于多种重要的实际靶点,识别出了从TRK正构抑制剂到GAC变构抑制剂等经过湿实验室验证的活性化合物。通过弥合共价药物发现中的空白,CovalentLab提供了一个多功能且公开可用的资源,以扩展可药靶点并加速靶向共价治疗的发展。

共价药物设计是一种变革性的策略,其独特优势包括延长靶点作用时间、高效力以及克服药物耐受性的潜力,尤其是在激酶和蛋白酶抑制剂中。这些优势促使了一些共价药物的批准,如伊布替尼(ibrutinib)和奥西替尼(osimertinib)。近年来,共价药物的应用进一步扩展到了后翻译修饰领域,包括乙酰化和磷酸化等。根据当前统计数据,共价药物仅占美国食品药品监督管理局(FDA)批准疗法的大约7%,其应用主要集中在针对丝氨酸和半胱氨酸的靶向。这突显了在共价药物设计中进行更广泛探索和优化的迫切需求。

当前的共价药物发现主要依赖于两种直观的策略:基于配体的设计和基于战头的方法。基于配体的策略涉及对已知可逆结合物进行合理修改,通过引入亲电战头,利用已有的非共价结合构象来准确定位战头进行共价结合。这种方法提高了靶点选择性,同时降低了脱靶反应的风险。然而,当前的方法主要依赖于针对半胱氨酸的亲电战头,如丙烯酰胺,这导致了对其他亲核残基的相对忽视。这种对半胱氨酸的过度依赖无意中限制了创新的范围和共价调控策略的普遍适用性。事实上,其他亲核残基,如赖氨酸(lysine)、酪氨酸(tyrosine)和谷氨酸(glutamic acid),也被用作共价靶点,针对非半胱氨酸残基的策略在近年来变得越来越普遍。相反,基于战头的方法采用了一种亲电体优先的策略,通过首先确定战头,而不是将共价性引入已有的可逆配体,从而实现对共价结合物的全新设计。这种方法特别适用于那些传统上被认为是“不可成药”的靶点,因为它们具有浅结合口袋或缺乏高亲和力的可逆配体。然而,识别合适的靶蛋白和对应的配体框架对于新设计的共价战头仍然是一个挑战。因此,整合基于配体设计的精确性与基于战头策略的探索性,成为越来越重要的需求。

数据库的构建、计算模型的进步以及机器学习驱动的反应性预测为设计共价化合物提供了新的可能性。一方面,研究人员已经投入大量努力,建立全面的共价分子数据库,包括cBinderD、CovPDB、CovBinderInPDB和CovalentInDB等。这些数据库为共价药物的发现提供了丰富的资源。另一方面,基于机器学习的共价可结合位点识别,促进了靶向共价抑制剂的设计,并有助于扩展可药蛋白组。例如,杜等人提出了一个基于图的深度学习模型,DeepCoSI,专门用于预测共价药物的结合位点,尤其是针对半胱氨酸残基。最近,刘等人开发了预测蛋白质中半胱氨酸共价可结合性的模型,包括基于物理化学特性的决策树模型和三维卷积神经网络(3D-CNN)模型。尽管这些努力提供了有价值的计算工具,但它们主要集中在现有共价剂的目录化或预测特定氨基酸的共价结合位点,未能有效支持新型共价分子的灵活设计,也没有完全解决战头多样性受限或靶点选择范围狭窄的问题。因此,共价分子的智能和合理设计仍然是该领域的一个关键需求。

通过分析PDBbind数据库,我们发现超过95%的结合口袋(在6 ?范围内)包含可用于共价结合的亲核残基,这表明将可逆配体转化为不可逆抑制剂的广泛潜力,并扩展了共价药物发现的范围。基于这一发现,我们提出了CovalentLab,一个交互式的平台,用于共价分子的合理设计。该平台整合了传统的共价策略和后翻译修饰,将基于配体和基于战头的方法统一到一个流程中。对于给定的蛋白质-配体复合物,CovalentLab能够识别出附近的亲核残基,根据其反应性进行排序,确定配体上的最佳战头连接位点,并将战头连接到选定的配体上。具体而言,我们从CovalentInDB数据库中选择了九种氨基酸(天冬氨酸、赖氨酸、组氨酸、丝氨酸、苏氨酸、半胱氨酸、精氨酸、谷氨酸和酪氨酸)作为共价可靶向的残基,并使用数据库中的210种不同战头进行配体构建。值得注意的是,CovalentLab支持用户自定义战头的提交,使用户能够设计特定于特定氨基酸的共价配体。靶点根据与对应配体的最小距离进行排序,使用户能够优先考虑那些空间上更接近的候选者,以实现最佳的共价相互作用。此外,我们的方法被用于生成一个包含302个可逆蛋白质-配体复合物的公开数据集,从中设计出了超过100,000个共价分子,覆盖95个靶点。更重要的是,CovalentLab在两个不同的蛋白质上得到了验证,包括激酶TRK和水解酶GAC。在这些情况下,我们成功获得了经过湿实验室验证的共价命中化合物。总之,CovalentLab提供了一个用户友好、交互式的平台,用于共价化合物的合理设计,通过AI驱动的算法和完全自动化的流程,扩展了分子设计空间,满足了多个学科研究人员的需求。该平台和数据库均可公开访问,网址为https://www.medchemwise.com/CovalentLab。

我们对128种FDA批准的共价药物进行了全面的统计和机制分析,以更好地描述其当前的状况和限制,重点分析了参与共价结合的氨基酸残基以及共价键形成的核心化学机制。如图2A所示,这些药物中,丝氨酸和半胱氨酸是最常被靶向的亲核氨基酸。除了氨基酸选择性外,分析还表明共价反应路径的多样性有限。对于靶向丝氨酸的化合物,仅使用了两种主要机制:加成-消除和亲核加成,尽管理论上存在其他化学途径的可行性。同样,靶向半胱氨酸的药物主要依赖于亲核加成作为中心机制。值得注意的是,数据分析揭示了战头使用的明显偏倚,其中β-内酰胺类战头被频繁用于丝氨酸靶向抑制剂,而丙烯酰胺仍然是半胱氨酸修饰的首选亲电试剂。总体而言,数据表明当前的共价设计受到有限的残基选择性和反应机制的限制。

为了系统评估共价配体在蛋白质-配体复合物上的结合潜力,我们分析了PDBbind v2020数据集中的结合口袋,集中于配体质心周围6 ?范围内的氨基酸残基。图2B的分析表明,超过95%的配体结合分子至少包含一个可共价修饰的亲核氨基酸残基,这意味着几乎所有结合位点都包含可靶向的残基。这一观察为共价结合的广泛可能性提供了有力证据。然而,这种普遍性应被解释为潜在的共价可修饰性。半胱氨酸,特别是去质子化的形式,通常是反应性最强的亲核试剂,并在共价抑制剂设计中被广泛利用。相比之下,赖氨酸通常在生理条件下被质子化,这显著降低了其亲核性,尽管在特定微环境或靠近催化残基的情况下,其反应性可以增强。同样,天冬氨酸和谷氨酸的羧酸基团倾向于表现出较低的内在反应性。尽管亲核残基广泛存在,但它们的反应性高度不均,如果目标残基缺乏足够的化学可修饰性,共价战头的引入可能无法产生高效的共价结合。目前,共价药物发现的范围有限,大部分研究集中在少数反应性残基上,尤其是半胱氨酸。为了弥合这一差距,我们提出了一种整合的、流畅的平台,旨在系统支持共价抑制剂的识别、设计和优化,覆盖更广泛的氨基酸靶点和战头化学。

准确识别共价结合位点是共价分子合理设计的基本前提。为了实现共价结合位点的预测建模,我们应用LoRA技术对预训练的ESM-2蛋白质语言模型进行微调,开发了一个专门用于共价结合位点识别的模型。利用CovalentInDB数据库中的实验验证注释,我们对模型进行了微调,以捕捉蛋白质环境中与共价反应性相关的序列和上下文特征。为了评估训练效率,我们比较了交叉熵损失(CE loss)和焦点损失(focal loss),这些损失函数在处理类别不平衡优化时存在差异。基于多个评估指标的整体表现,CE loss被选为最有效的训练目标。如图3B所示,该模型的召回率超过0.80,精度为0.715,表明其在识别真实的共价结合位点方面具有强大的能力,同时保持适中的假阳性率。我们的模型在测试集上表现出色,达到了0.981的ROC曲线下面积(AUC),反映了其在区分共价和非共价残基方面的高判别能力。在此基础上,我们应用该模型对蛋白质活性位点附近的潜在反应性残基进行排序。具体而言,利用蛋白质结构定义活性口袋,并根据预测的共价反应性对邻近的氨基酸进行优先级排序。这种应用结合了基于序列的预测与结构和功能背景,使研究人员能够合理识别既具有化学反应性又具有空间可接近性的配体结合残基。

为了应对当前共价药物发现的限制,我们开发了CovalentLab,一个共价分子设计平台,采用了创新的双向设计策略:从靶点到配体的精确共价化合物开发流程,以及从战头到靶点的反向设计流程,以根据亲电战头识别合适的配体。完整的流程包括三个主要阶段:结合口袋的特征分析和共价位点预测、配体修饰位点的识别以及共价片段的生成和优化。在第一个阶段,对蛋白质-配体复合物进行分析,以定义配体结合口袋并识别潜在的反应性氨基酸残基。结合口袋通过选择所有距离配体结合分子任意原子在用户定义的距离阈值(通常以配体质心为中心,约6 ?)内的蛋白质残基来定义。在定义的区域内,具有亲核侧链的氨基酸残基,包括天冬氨酸、谷氨酸、赖氨酸、精氨酸、组氨酸、半胱氨酸、丝氨酸、苏氨酸和酪氨酸,被标记为潜在的共价靶点。这些残基被自动检测,并记录相关的信息,如残基类型、链ID和序列位置。然后,利用我们训练的共价位点预测模型,根据预测的共价反应性概率对这些残基进行排序。模型产生的logits经过softmax处理,以获得每个位置的概率,随后根据这些概率对位置进行排序。

一旦识别出可靶向的残基,对配体进行系统分析,以确定适合共价修饰的位点。候选的锚定原子根据其与反应性残基的空间接近性进行选择,作为后续结构片段化和战头结合的基础。片段生成遵循两个指导原则,以确保化学可修饰性和结构保真度。第一,如果所选的锚定原子含有氢原子,通过将一个氢原子替换为携带共价战头的基团,从而保留原始的骨架结构,减少结构破坏。第二,片段化进一步受到锚定原子的杂化状态的影响:对于sp3杂化的原子,仅允许移除氢原子,以保持局部三维几何结构并减少立体阻碍;而对于sp2或sp杂化的原子,选择性地进行键断裂,以生成结构多样的片段库,适应平面或线性共轭几何结构。这种方法支持生成与广泛共价战头化学兼容的反应性片段。生成的片段与针对指定氨基酸残基的亲电战头进行共价结合。该方法被应用于302个蛋白质-配体复合物,并通过对接筛选构建了一个包含超过100,000个分子的共价化合物库。

我们将自动化的共价分子设计流程集成到我们的网络平台CovalentLab中,提供了一个交互式的设计工作空间,以满足各种用户需求。该平台支持两种不同的共价分子设计方法。第一种方法是基于配体的共价分子设计,用户可以输入PDB ID,系统会自动从RCSB PDB数据库中检索相应的复合物,或者上传自己的结构文件进行定制处理。在自动检索过程中,系统保留含有最多重原子的配体,同时排除溶剂分子和金属离子。然后,结合口袋被定义为距离保留的配体在指定距离内的区域。在此区域内,平台识别出适合共价修饰的氨基酸残基,并提供链标识符和序列位置。用户可以选择目标残基,无论是通过可视化界面交互式选择,还是手动输入残基信息。选定目标残基后,用户可以从一个多样化的共价战头库中选择战头,以探索修饰策略并系统地生成潜在的药物候选物。点击“运行”按钮后,系统生成三个关键输出:适合共价结合的分子片段、设计的带有战头的共价分子,以及涉及目标残基的预测反应机制。为了提高用户访问性,结果部分的右上角提供了下载选项,使用户能够以CSV格式导出生成的分子结构,以便进一步分析或与其他外部建模工具集成。通过结合自动化、交互式可视化和灵活的用户输入,CovalentLab使研究人员能够高效地设计、优化和评估共价药物候选物,将整个过程整合为一个直观且数据驱动的工作流程。

第二种方法是基于战头的共价分子设计策略,该策略也已集成到我们的网络平台中,以完全自动化的用户交互方式实现。如图5D所示,用户可以通过灵活的分子编辑器在画布界面中绘制并提交自定义的反应性战头。值得注意的是,这一模块支持集成新颖或此前未报告的亲电基团,使用户能够探索传统共价战头库之外的化学空间。在设计战头后,用户可以访问我们的PDB推荐系统,以识别适合战头结合的蛋白质-配体复合物结构。界面包括高级筛选功能:用户可以指定要在靶点结合口袋中包含或排除的氨基酸类型,从而精确选择反应性残基。此外,用户还可以自定义距离过滤器,以定义战头与目标残基侧链之间的最小空间接近性,确保仅返回相关的复合物结构。系统将输出推荐分为主要的蛋白质类别,包括酶、离子通道、膜蛋白、伴侣蛋白、受体等。这种分类有助于用户在不同的蛋白质类型之间快速导航,并支持用户选择与他们的治疗或机制目标相匹配的复合物结构。一旦选择了一个合适的复合物,流程将通过位点注释、分子片段化和战头结合,完成一个完整的共价配体发现工作流程。

我们开发并整合了一个全面的在线资源,围绕一个包含超过100,000个共价小分子的精选数据集,这些分子在95个蛋白质靶点上被精心设计,以促进共价抑制剂的发现和合理设计。图6展示了靶点分布和分子化学空间的分布,表明该库显著扩展了现有共价化合物的化学空间。该基于网络的平台提供了一个直观的、多层的搜索界面,使用户能够通过四级查询系统高效地访问靶点特异性分子数据,包括主要靶点分类、次级分类、特定靶点名称和对应的PDB ID,从而获取相关的蛋白质结构。对于每个PDB条目,所有可能的共价配体都被系统地分类和展示。每个候选分子都配有详细的注释信息,包括原始配体骨架、靶向的氨基酸残基及其位置,以及涉及的共价反应机制类别。这些注释为用户提供了一个全面的化合物共价结合模式视图。此外,每个配体条目都与预计算的对接评分相配,以提供结合亲和力的估计。考虑到共价对接的高计算成本和时间消耗,我们采用了一种非共价对接方法进行评估。结果通过交互式三维模块进行可视化,使用户能够查看配体-蛋白质复合物中的非共价相互作用。除了结构和相互作用数据,平台还提供了药物样性指标,包括Lipinski的“五规则”、定量药物样性估计(QED)和合成可及性(SA)评分。这些指标共同为每种化合物作为先导分子的潜力提供了全面评估。通过将分子设计、结构分析和药物样性评估整合到一个用户友好的界面中,该库成为药物化学家和结构生物学家开发具有更高效力、选择性和合成可行性的共价抑制剂的重要工具。此外,该精选的分子数据集可用于训练机器学习模型,进一步加速共价药物发现。

为了展示我们提出的方法的通用性和稳健性,我们选择了两个代表性靶点进行验证:PRMT6(蛋白精氨酸甲基转移酶6)和ABL1(Abelson鼠白血病病毒癌基因同源物1)。对于基于配体的共价抑制剂设计流程,我们选择了PRMT6(PDB ID: 5E8R)作为案例研究。该蛋白质序列被提交到我们的共价结合位点预测模型中,该模型识别出Cys50作为最可能的共价修饰位点。值得注意的是,这一预测与现有文献一致,其中Cys50被确认为PRMT6中用于共价配体结合的反应性位点。在确定目标残基后,用户可以从一个多样化的共价战头库中选择战头,以探索修饰策略并系统地生成潜在的药物候选物。点击“运行”按钮后,系统产生三个关键输出:适合共价结合的分子片段、设计的带有战头的共价分子,以及涉及目标残基的预测反应机制。为了提高用户访问性,结果部分的右上角提供了下载选项,使用户能够以CSV格式导出生成的分子结构,以便进一步分析或与其他外部建模工具集成。通过结合自动化、交互式可视化和灵活的用户输入,CovalentLab使研究人员能够高效地设计、优化和评估共价药物候选物,将整个过程整合为一个直观且数据驱动的工作流程。

我们进一步验证了平台的实用性,通过使用CovalentLab的后翻译修饰模块设计了一个针对Lys320的特异性乙酰转移酶模拟物。基于结构的分子对接和计算可行性分析指导了化合物16的合成(图9B和S6B)。Western blot分析比较了野生型和Lys320突变型GAC的乙酰化模式,显示化合物16在低浓度(≤2 μM)下能选择性地乙酰化野生型GAC,但在高浓度(≥10 μM)下,这种选择性减弱,Lys320突变型中出现了乙酰化信号,表明目标特异性随浓度增加而下降。质谱分析表明,化合物16表现出很强的选择性,其中71.05%的总蛋白质产物显示出乙酰化(图9C)。随后的肽图分析确定Lys320为主要的修饰位点,其乙酰化占有率达到67.48%(图9D),确认了化合物的位点特异性靶向能力。进一步的生物学评估显示,化合物16对肿瘤细胞的增殖具有增强的抗增殖活性,比化合物14和15更有效(图S6B)。此外,治疗化合物16显著增加了细胞内活性氧(ROS)水平,并损害了谷氨酰胺酶活性(图9G和S6D),如通过显著减少谷氨酸到谷氨酰胺的转化所反映的(图9H)。上述结果表明,抑制剂16能够介导GAC变构口袋中的后翻译修饰,为GAC蛋白的进一步研究提供了有价值的见解。

本研究中,我们开发了CovalentLab平台,它整合了基于配体和基于战头的方法,形成了一个统一的工作流程,使研究人员能够设计出能够与蛋白质共价结合或诱导后翻译修饰的分子。该工作流程结合了基于ESM-2的模型,优先考虑结合口袋附近的共价可靶向残基,并在空间约束的指导下,平台自动确定合适的修饰位点,并将相应的战头连接到这些位点上。此外,该平台支持用户自定义的共价战头,极大地扩展了新型共价分子的设计空间。我们的方法被应用于95个精心挑选的靶点和302个蛋白质-配体复合物,从而构建了一个包含超过100,000个共价化合物的数据库,为训练机器学习模型提供了宝贵的资源。与之前专注于特定靶点或氨基酸类型的计算策略不同,CovalentLab提供了一个通用且自动化的解决方案,适用于广泛的蛋白质-配体复合物,显著扩展了共价药物发现的格局。该平台成功设计并验证了针对GAC和TRK的共价抑制剂,其适用性扩展到包括正构和变构位点在内的各种结合口袋,这突显了CovalentLab的潜力及其生成生物活性分子的能力,适用于功能多样的蛋白质靶点。

我们的平台通过AI驱动的、完全自动化的流程方法,解决了传统共价药物设计中的关键空白,有效克服了传统共价化合物开发中的试错方法。CovalentLab将继续扩展和改进,涵盖更广泛的靶蛋白、新的战头化学和增强的预测算法。我们预计,这一平台将成为药物发现社区的重要资源,为多种治疗靶点提供高效设计高选择性和强效的共价抑制剂。

在材料和方法部分,我们详细介绍了数据收集和处理的过程。为了训练我们的共价结合位点预测模型,我们利用了CovalentInDB 2.0数据库中所有可用的共价分子条目,共计3,598条记录。在去除重复的蛋白质靶点后,保留了1,933个独特的蛋白质-配体相互作用数据点。这些数据被随机分为训练、验证和测试集,比例为8:1:1。此外,我们还使用了由Dalton等人整理的FDA批准的共价药物精选数据集,该数据集包含128种化合物,用于进一步分析靶点分布和结合机制。另外,我们下载了PDBbind v2020数据集的索引文件,提供了19,443个PDB ID,用于评估结合模式的普遍性和多样性。

为了构建数据库,我们最初使用了PDBbind v2020数据集中的蛋白质-配体复合物。我们分析了PDBbind中的靶点分布,并确定了95个常见的靶点,共302个PDB结构,以指导不可逆分子的设计。对于每个靶点,我们手动选择了1-5个具有多样骨架的配体作为设计前体。为了提高分子设计的合理性,我们在配体选择过程中排除了内源性物质,如多糖、肽和ATP。此外,我们确保所选的配体分子量大于200 Da,并且至少包含两个环结构。通过平台生成的共价化合物随后通过分子对接研究进行了验证。在AI驱动的平台DrugFlow中,我们使用了Inno-Docking模块进行对接模拟,评估了蛋白质-配体的结合亲和力,并检查了对接复合物的构象合理性。这一步骤有助于准确预测配体在蛋白质结合口袋中的取向。此外,我们使用RDKit(版本2021)计算了多种基本的化学和生物学特性,为设计的化合物提供了全面的分析。

CovalentLab是基于Django 5.1.2框架和Python 3.11构建的,采用PostgreSQL作为数据库系统,以确保数据管理的稳健性和可扩展性。为了进行分子可视化和分析,它集成了Mol*,一个开源的、基于网络的工具包,提供了探索分子数据的高级功能。

CovalentLab网络服务器可自由访问,网址为https://www.medchemwise.com/CovalentLab。共价结合位点预测的代码和数据已上传至https://github.com/WJmodels/Covalent-site-prediction。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号