《ChemMedChem》:Small Molecule Kinase Inhibitors with In Vitro β-Hematin Formation and Plasmodium falciparum Protein Kinase G Inhibitory Activity Identified Using Machine Learning
1 引言
疟疾是一种严重的寄生虫病,主要由雌性按蚊传播。尽管有多种疟原虫会引起感染,但其中恶性疟原虫(Plasmodium falciparum)是导致死亡最多的物种。2023年,全球估计有2.63亿病例和59.7万人死亡。同时,寄生虫对现有的青蒿素类联合疗法产生耐药性,迫切需要开发新的治疗方法。
在疟原虫的无性血液阶段,裂殖子侵入宿主红细胞并主动分解血红蛋白,产生具有氧化还原活性的游离血红素,这对发育中的滋养体具有毒性。最终,血红素被隔离为一种称为疟色素或疟色素的结晶物质。值得注意的是,某些恶性疟原虫菌株对许多据报道靶向疟色素形成途径的抗疟药物(包括氯喹)产生了耐药性。耐药性的产生是由于药物从寄生虫消化液泡中外流,这是由于膜转运蛋白氯喹耐药转运蛋白(PfCRT)发生突变所致。因此,鉴定新的化学型或联合疗法以对抗耐药性至关重要。
随着无性血液阶段的进展,滋养体成熟为裂殖体。重要的是,裂殖体释放裂殖子(继而感染新的红细胞)的过程是由环鸟苷酸依赖性蛋白激酶G(PfPKG)促进的。近年来,药物压力研究表明,与其它激酶相比,PfPKG不易产生耐药性,因此,PfPKG被认为是抗疟药物发现的一个有价值靶点。
分子对接和机器学习方法正日益与常规药物化学结合,以加速药物发现进程。此前已有研究通过贝叶斯统计和分子对接,从ZINC15 FDA批准药物库中识别出新的合成疟色素(β-血红素)形成抑制剂,包括拉帕替尼(Lapatinib)和尼洛替尼(Nilotinib)等抗癌药物。有趣的是,拉帕替尼和尼洛替尼都是小分子蛋白激酶抑制剂。一种化合物对生物体内的多个靶点具有活性(多靶点药理学),作为对抗抗疟药耐药性的一种可能手段,正在文献中获得越来越多的关注。
迄今为止,尚未有化合物被报道能同时靶向恶性疟原虫的PfPKG和血红素解毒途径。鉴于激酶抑制剂和疟色素形成抑制剂之间的结构相似性,以及已发现的不同“ib”化合物对这两个靶点具有活性,本研究探索了BioVision蛋白激酶抑制剂库中化合物作为PfPKG和β-血红素形成双重抑制剂的潜在多靶点药理作用。利用主成分分析(PCA)、机器学习和分子对接,我们筛选了100种独特的“ib”化合物,并从中购买了12种化合物,最终鉴定出三种对PfPKG和β-血红素形成具有双重抑制作用的化合物。
2 材料与方法
2.1 数据收集与处理
研究收集了379种已知对PfPKG有抑制活性(活性)或无活性(非活性)的化合物作为训练集,活性定义为IC50≤ 0.1 μM。测试池包含从BioVision蛋白激酶抑制剂库中获得的139种PfPKG活性未知的化合物,去重后剩下100种“ib”化合物。
2.2 PfPKG富集度图
采用先前用于绘制抗疟化学空间和β-血红素富集图的主成分分析方法,生成了用于预测PfPKG抑制剂的富集度图。计算了训练集和测试池中化合物的17个二维分子描述符值,并使用MATLAB脚本将PfPKG抑制剂可视化为抗疟化学空间中富集的区域。然后将PfPKG富集度图与先前确定的β-血红素富集度图叠加,以探索“ib”化合物的双重活性。
2.3 分子对接
2.3.1 与β-血红素晶体结构的对接
使用Schr?dinger Maestro界面的LigPrep工具,在pH 5.0 ± 0.5条件下准备配体的能量最小化3D构象。将优化后的结构导入Autodock Vina PyRx界面。将先前由Pagola等人发表并经Olivier等人修改的优化β-血红素μ-丙酸酯二聚体结构作为受体大分子加载到PyRx中。受体被建模为3 × 3 × 3晶格,表达(100)、(010)和生长最快的(001)晶面。Vina搜索空间网格覆盖了27个晶胞的整个晶格。每种配体都以25的穷举度进行对接,并分析了五个最低能量结合构象。
2.3.2 与PvPKG蛋白晶体结构的对接
选择与抑制剂ML10结合的P. vivaxPKG晶体结构(PDB 5EZR)进行对接研究,因为恶性疟原虫和间日疟原虫PKG的激酶结构域在载距状态下对齐时均方根偏差仅为0.3 ?,序列同一性为96%,并且腺苷三磷酸(ATP)结合位点完全保守。使用Schr?dinger Protein Preparation Wizard准备晶体,包括键序分配、互变异构和电离态生成、氢原子添加、侧链和环修复、去除晶体结构表面的水分子以及使用OPLS4力场进行约束最小化。通过将10.0 ?内网格框和24.3 ?外网格框集中在ATP结合位点的结合抑制剂上生成受体网格。使用Schr?dinger Glide默认设置,在额外精度、柔性配体模式下将配体对接到受体,并使用Schr?dinger GlideScore函数对构象进行评分。只有预测能与铰链结合缬氨酸614(V614)残基形成氢键的化合物才被保留进行下一步。
2.4 机器学习
2.4.1 模型和分子描述符
在KNIME分析平台中开发了一个简单的分类随机森林(RF)机器学习模型。训练中使用的化合物由1190个二维二元分子指纹描述,包括由PaDEL计算的分子存取系统(MACCS)指纹和扩展连通性指纹(ECFP)。
2.4.2 模型性能
采用重复随机子抽样验证策略来获得稳健的模型性能估计。数据集被随机分为80%训练集和20%外部测试集,不进行分层。此过程重复50次,产生50个独立的训练/测试分割。对每个分割分别训练和评估RF模型。使用准确率、精确度和灵敏度等指标以及接收者操作特征(ROC)曲线对留出集进行模型性能量化。报告的指标代表了50次独立外部评估的平均值和标准差。
2.4.3 应用域
基于最近邻Tanimoto相似性(使用组合的MACCS和ECFP指纹)进行了应用域分析。对于每种“ib”化合物,计算其与训练集中任何分子的最大相似性。使用留一法程序获得训练化合物中最近邻相似性的分布,并选择该分布的第5个百分位数作为应用域阈值(0.48)。相似度低于此阈值的化合物被认为在应用域之外。
2.5 生物学测定
2.5.1 β-血红素抑制
采用Nonidet P-40(NP-40)去垢剂介导的测定法来确定对β-血红素形成的抑制活性。在37°C孵育4-5小时后,用吡啶淬灭,导致未反应形成β-血红素的游离血红素组分形成双吡啶血色原,该物质在405 nm处有最大吸光度,便于游离血红素的定量。使用GraphPad Prism绘制S形剂量-反应曲线以确定半数抑制浓度(IC50)值。
2.5.2 PfPKG抑制
使用纯化的重组PfPKG进行激酶测定,在10 μM ATP存在下,使用ADP-Glo测定法(测量腺苷二磷酸(ADP)的形成)来量化活性。从重复的独立实验中计算平均IC50值。
2.5.3 全细胞活性
使用寄生虫乳酸脱氢酶(pLDH)测定法,测试显示有β-血红素和PfPKG抑制活性的先导化合物对氯喹敏感的恶性疟原虫NF54细胞系的生长抑制活性。对PfNF54活性<2.0 μM的化合物也评估了其对氯喹耐药的PfDd2菌株的活性。
3 结果与讨论
3.1 PfPKG富集度图
成功应用β-血红素富集度图识别新的β-血红素形成抑制剂的经验,启发了其应用于第二个抗疟药物靶点,即PfPKG。在本研究中,使用Thibaud报告的主成分分析方法,生成了已知PfPKG抑制剂和非活性化合物的二维得分图。主成分1(PC1)和主成分2(PC2)共同占累计数据方差的74%。这些数据随后被用于开发PfPKG抑制富集度图,其中定义的化学空间内任何位置相对于非活性化合物的抑制剂百分比得到可视化呈现。
当两个富集度图叠加时,一个显著的观察是,整个PfPKG富集度图都位于β-血红素富集度图的化学空间内。两个靶点的最高富集区域主要位于负PC2区域,但它们在PC1上有所区分。特别是,β-血红素富集度图的深灰色区域向右(+PC1)移动,而PfPKG富集度图的深绿色区域主要位于左侧(-PC1)。负责PC1正负载的分子描述符(值≥0.80)包括mlogP、拓扑半径和直径、分子量(MW)和McGowan体积。因此,β-血红素抑制的正向移动与分子大小的总体增加相关。相反,导致PfPKG富集度图向左(-PC1)移动的分子描述符与平均分子量(AMW)和键不饱和度(ETA_dEpsilon_B和nAromBond)有关。不饱和度似乎是PfPKG和β-血红素形成抑制剂的一个关键特征。
计算了测试池中100种“ib”化合物的主成分坐标,用于将这些化合物的位置投影到两个叠加的富集度图上。根据识别双重靶点抑制剂的目标,同时落在两个靶点富集区域的化合物引起了我们的兴趣。在考虑PC1与PC2图时,我们发现有25种化合物同时位于两个区域。
3.2 分子对接
为了补充主成分分析结果,在流程的下一阶段考虑了测试池中的所有100种“ib”化合物。使用分子对接来预测化合物与β-血红素和PvPKG晶体结构的相互作用强度。与β-血红素的对接分数范围从-5.5到-13.1 kcal/mol。最有利(最负)的对接分数一致地发现于吸附在生长最快的(001)和(00)晶面的化合物。这归因于这些晶面上可及的深沟,以及可用于形成π-π堆积和氢键相互作用的卟啉环和羧基。
两种研究都显示预测的结合亲和力与β-血红素抑制活性之间存在直接相关性。因此,与β-血红素晶体良好的对接分数(通常≤-10.0 kcal/mol)特别有希望。在100种“ib”化合物中,有45种的对接分数等于或优于-10.0 kcal/mol。对于Pv/PfPKG,对接分数与活性之间的关系不那么明显,因此对接分数不一定是化合物活性的可靠指标。事实上,在预测化合物对此酶靶点的活性时,考虑抑制剂的结合构象同样重要(如果不是更重要的话)。ATP竞争性Pf/PvPKG抑制剂的一个基本特征是它们能够与ATP结合位点的铰链结合域形成氢键(对于PvPKG是残基V614)。因此,计算了每种抑制剂的此类相互作用数量,并将其作为活性的额外“衡量标准”,而不仅仅是结合分数。
在100种“ib”化合物中,有31种被预测能形成一或两个铰链结合相互作用,而69种显示与V614没有氢键形成,因此被排除在进一步考虑之外。含有喹唑啉、嘧啶和吡啶部分的配体在能够与PvPKG形成铰链结合相互作用的31种化合物子集中占主导地位。类似于疟色素形成抑制剂,杂芳环的存在对于恶性疟原虫PKG抑制似乎至关重要。特别是,杂原子彼此之间的空间排列似乎很重要。通常由单个(通常是sp2杂化)碳原子隔开的两个氮原子(N-C-N)通常被预测与PvPKG的铰链结合V614残基形成两个氢键。
地拉尼替尼再次成为对接分数(-14.1 kcal/mol)方面得分最高的化合物。重要的是,它含有这种N-C-N指纹,并被预测与V614残基形成两个氢键,以及与K563的π-阳离子相互作用和与E618的盐桥。就上述分子对接标准而言,地拉尼替尼是仅有的16种“ib”化合物之一,其在两个靶点方面均表现良好(即与β-血红素的对接分数≤-10.0 kcal/mol,并且预测与PvPKG形成至少一个铰链结合相互作用)。
3.3 用于预测PfPKG抑制的随机森林机器学习
考虑到分子对接预测的局限性,使用了一种互补的基于配体的方法作为优先选择化合物的额外方法。使用随机森林机器学习模型进一步筛选被预测能与PvPKG形成铰链结合相互作用的31种化合物,以预测它们对PfPKG的活性。随机森林是一种基于决策树的简单分类集成预测方法。它通常被认为是一种计算成本低且准确的方法,对超参数不敏感,因此被认为适合当前研究。
随机森林机器学习模型在已知的PfPKG抑制剂(标记为活性)和IC50值大于0.1 μM的非活性化合物上进行训练。分子由总共1190个二维分子指纹描述,包括MACCS和ECFP。MACCS指纹编码分子的组成元素和子结构键,包括键类型和原子环境,但缺乏关于原子连接性的信息。相比之下,ECFP保留了有关原子邻域和键连接性的细节。
该模型在训练阶段表现良好,准确率为0.87 ± 0.04。0.81 ± 0.05的ROC分数进一步验证了模型区分真阳性和真阴性类别的能力。通过随机置换类别标签进行Y-扰乱来评估模型的稳健性。与在真实标签上训练的模型相比,扰乱模型在所有性能指标上始终表现出明显较低的值。所有指标的P值表明,观察到的性能远超出随机标记下的预期范围,证实了模型的预测能力具有统计学意义,并非偶然相关性。
使用随机森林模型计算了从PfPKG富集度图和酶对接中识别出的31种“ib”候选化合物的预测活性。应用>0.5的概率阈值,优先考虑了12种化合物进行进一步考虑。由于机器学习预测的可靠性取决于化合物是否在训练数据中得到充分体现,因此评估了模型的应用域,以确定哪些候选化合物落在可信的预测空间内。使用≥0.48的Tanimoto相似性阈值,12种优先化合物中的11种被保留为在应用域内。与分子对接结果一致,喹唑啉骨架在最高得分预测中占主导地位,其次是嘧啶。
3.4 化合物选择与活性评估
3.4.1 化合物选择
为了评估本研究中使用的不同模型在识别β-血红素形成和PfPKG双重靶点抑制剂方面的预测能力,使用两个选择标准选择了一部分BioVision蛋白激酶抑制剂化合物进行购买。这些标准专门应用于被预测能与PfPKG铰链结合残基(V614)形成至少一个氢键的31种“ib”化合物。首先,通过仅考虑位于PfPKG富集区域的化合物,将此子集进一步细化为10种。重要的是,由于整个已知的PfPKG化学空间都位于已知β-血红素抑制剂的化学空间内,任何落在PfPKG富集区域的化合物也落在β-血红素抑制剂的富集区域,因此被预测为双重靶点抑制剂。最后,这10种化合物中有8种形成了两个铰链结合相互作用,因此被购买。其次,考虑了在应用域内且在随机森林机器学习模型中获得概率得分>0.5的11种化合物。其中,有7种获得了与β-血红素晶体表面的Vina对接分数≤-10.0 kcal/mol,因此被预测对PfPKG和β-血红素都有活性。培西达替尼被预测能与PfPKG形成两个铰链结合相互作用,并且已经通过选择标准1被包括在内,然而,根据选择标准2,购买了另外四种对β-血红素获得最有前景对接分数的化合物。因此,总共购买了12种化合物(7种唯一符合选择标准1,4种唯一符合选择标准2,以及1种同时符合两种选择方法)用于实验验证。
3.4.2 β-血红素形成的抑制
使用NP-40去垢剂介导的测定法来确定12种购买的化合物在0-1000 μM浓度范围内对β-血红素形成的抑制活性。使用吡啶血色原方法分析未反应的Fe(III)血红素以确定50%抑制浓度。在12种化合物中,有10种获得的IC50值<50 μM。值得注意的是,有7种化合物的活性低于100 μM,其中4种获得的IC50值与氯喹相当。尼洛替尼和拉帕替尼显示出优异的β-血红素抑制活性,与先前报道的值(<10 μM)一致,而索拉非尼和伊布替尼分别获得19.1 ± 2.6和34.4 ± 2.9 μM的值。
对β-血红素晶体结构对接构象的分析表明,被预测与多个铁原卟啉IX亚基相互作用并形成多个π-π堆积和氢键相互作用的分子获得了较低的IC50值。这与良好的Vina对接分数(≤-10 kcal/mol)一致。此外,活性较高的化合物通常位于β-血红素富集度图上预测富集度较高的区域(即灰色/深灰色区域)。导致这些区域在PC1-PC2空间中定位的分子描述符包括亲脂性(mLogP)、分子量、McGowan体积以及拓扑半径和直径。除了整体大小外,不饱和程度对于β-血红素抑制活性也很重要。该测试池中最活跃的β-血红素抑制剂,包括尼洛替尼、拉帕替尼和索拉非尼,通常比其他化合物大,例如具有较长的平均直径(≥18 ?)。这些化合物还具有高于平均水平的π原子和双键数量,这可能通过π-堆积促进它们吸附到β-血红素晶体表面。
3.4.3 PfPKG抑制
使用ADP-Glo测定法(测量ADP形成)确定了12种化合物的PfPKG抑制活性。有6种化合物获得的IC50值<3 μM,除阿法替尼外,所有这些化合物都被预测能与PvPKG晶体结构的铰链结合残基(V614)形成两个氢键。三种化合物,即地拉尼替尼、伊布替尼和帕唑帕尼,获得了亚微摩尔级的酶活性(0.16–0.33 μM)。这三种化合物也被预测能与PfPKG催化赖氨酸残基(K563)形成相互作用;伊布替尼形成氢键,而地拉尼替尼和帕唑帕尼各自形成π-阳离子相互作用。我们进一步观察到,被预测能形成两个铰链结合相互作用的五种化合物都位于PfPKG富集度图上预测富集度较高的区域(即绿色/深绿色区域)。导致这些区域在PC1-PC2空间中定位的分子描述符都与不饱和程度有关。活性最高的化合物(地拉尼替尼、伊布替尼和帕唑帕尼)具有高于平均水平的π原子和双键数量。相反,此靶点的非抑制剂,如布立伐尼和沙普替尼(PfPKG IC50值>10 μM),具有最少的双键数量。
尽管化合物活性高于定义的活性训练集中的活性,但这些化合物的潜在双重靶点活性在本研究中特别令人感兴趣。值得注意的是,六种新鉴定的PfPKG抑制剂(IC50值<3 μM)中的五种也显示出对β-血红素形成的中度至良好的抑制。地拉尼替尼和伊布替尼作为双重靶点抑制剂最有前景,β-血红素IC50值<100 μM,并且对PfPKG具有亚微摩尔活性。
3.4.4 全细胞活性
使用pLDH测定法确定了所有12种购买的化合物对氯喹敏感的恶性疟原虫NF54细胞系的生长抑制活性。布立伐尼、卡马替尼、伊布替尼、培西达替尼和替拉布替尼没有显示全细胞活性。有趣的是,这五种化合物中有四种仅使用标准1选择。由于主成分分析富集度图的开发没有考虑全细胞活性,这一观察结果突出了该方法当前的一个局限性,如果可能的话,可以通过将全细胞活性作为额外的“分子描述符”来克服。相反,可以确定帕唑帕尼、沙普替尼和索拉非尼的活性值,尽管这些值不尽如人意(>6.0 μM)。此外,有四种化合物对NF54菌株显示出低于2.0 μM的IC50值。阿法替尼的活性中等(>1.0 μM),但地拉尼替尼、拉帕替尼和尼洛替尼获得了亚微摩尔活性。先前已确定拉帕替尼和尼洛替尼对氯喹耐药的恶性疟原虫Dd2菌株的活性数据,并在本研究中测量了阿法替尼和地拉尼替尼的活性。如耐药指数所示,地拉尼替尼确实与NF54菌株表现出一定的交叉耐药性,尽管这比氯喹低三倍。此外,地拉尼替尼对PfPKG(0.16 μM)以及β-血红素形成抑制活性(88 μM)也显示出最高的活性,表明该化合物作为双重PfPKG/疟色素形成抑制抗疟药进行进一步优化最有前景。与伊布替尼相比,伊布替尼在两种体外测定中显示出显著的活性,但在全细胞测定中表现不佳,值得注意的是,地拉尼替尼在其侧链中含有一个游离的碱性胺基团。如上所述,碱性氮基团有助于药物在疟原虫消化液泡中的积累。虽然这有利于抑制疟色素结晶,但积累的药物也可能干扰其他靶点,从而有助于其全细胞效力。
4 结论
抗疟药耐药性日益普遍,使得对经济有效治疗的需求成为优先事项。在本研究中,使用分子对接和机器学习工作流程的组合,鉴定出12种小分子FDA批准的蛋白激酶抑制剂(“ib”化合物),它们对β-血红素形成和PfPKG酶具有预测活性。可以对12种测试化合物中的5种测定两个靶点测定中的IC50值,然而,地拉尼替尼和伊布替尼以β-血红素IC50值<100 μM和对PfPKG的亚微摩尔活性脱颖而出。这两种化合物都是使用标准1选择的,该标准依赖于叠加的主成分分析富集度图和铰链结合相互作用分析。另外三种在两个靶点测定中确定了IC50值的化合物(帕唑帕尼、培西达替尼和阿法替尼)是从维恩图的三个不同区域中选择的。鉴于测试集规模有限,不可能对任何一种选择标准提出强有力的论证。相反,我们建议同时使用这两种方法仍然是值得的。重要的是,当前的研究显示了进一步开发机器学习模型的前景,特别是通过超参数细化和主动学习来扩展应用域。
分子大小和亲脂性等分子特征与已知的β-血红素形成抑制剂呈正相关。这与它们假定的吸附到生长的晶格上是一致的,这种吸附是通过π-π堆积相互作用促进的。重要的是,不饱和度在本研究中被确定为β-血红素和PfPKG抑制剂的一个重要特征。此外,弱碱性官能团的存在已被证明是实现对疟色素形成和PI4K双重活性的重要策略,在本研究中发现会增加抑制恶性疟原虫生长的可能性。本研究展示了不同计算机和机器学习方法的组合是发现新抗疟化学型作为进一步优化的起点的合理手段。特别是,最活跃的双重靶点抑制剂地拉尼替尼含有苯并喹唑啉骨架,该骨架以前尚未针对PfPKG进行评估,使其成为进一步开发和抗疟战争中可能的多靶点药理学工作的有趣骨架。