DTIAM:预测药物 - 靶点相互作用等的统一框架,助力药物研发新突破

《Nature Communications》:

【字体: 时间:2025年03月16日 来源:Nature Communications

编辑推荐:

  在药物研发中,准确预测药物 - 靶点相互作用(DTIs)至关重要。研究人员开展了 DTIAM 统一框架的研究。结果显示,DTIAM 在各任务中性能优异,能有效预测 DTIs、结合亲和力(DTA)和作用机制(MoA),为药物研发提供有力工具。

  在药物研发的征程中,准确预测药物 - 靶点相互作用(DTIs)就像一把精准的钥匙,能够开启发现有效药物的大门,对整个药物研发进程起着举足轻重的作用。然而,当前的研究面临着诸多棘手的难题。一方面,用于识别新 DTIs 的生化实验方法不仅成本高昂,而且极为耗时,这大大限制了药物研发的速度。另一方面,现有的计算方法虽然在一定程度上助力了药物发现,但也存在明显的缺陷。大多数方法严重依赖大规模高质量的标记数据,可实际情况是,现有的标记数据远远不足,且数据标注成本高、耗时长。同时,当面对复杂疾病中出现的新药物或靶点时,这些方法的泛化能力十分有限,就像在黑暗中摸索,难以准确找到方向。更为关键的是,现有方法难以阐明化合物的作用机制(MoA),而区分药物与靶点之间的激活和抑制机制,在药物研发和临床应用中都具有至关重要的意义,它就像指南针,能帮助科研人员确定药物的作用方向,避免误入歧途。
为了攻克这些难题,来自中南大学、河北工业大学等机构的研究人员展开了深入研究。他们提出了 DTIAM(Drug - Target Interaction, Affinity and Mechanism Prediction)这一统一框架,旨在准确预测 DTIs、药物 - 靶点结合亲和力(DTA)以及激活 / 抑制机制。经过不懈努力,研究取得了丰硕的成果。DTIAM 通过多任务自我监督预训练,从大量未标记数据中学习药物和靶点的特征,在各种任务中都展现出了卓越的性能,尤其是在冷启动场景下,优势更为明显。这一研究成果发表在《Nature Communications》上,为药物研发领域带来了新的曙光。

在研究过程中,研究人员运用了多种关键技术方法。在药物分子预训练模块,采用基于多任务自我监督学习的方法,从分子图中提取药物分子的特征。具体来说,将分子图分割成多个子结构,通过掩码语言建模(Masked Language Modeling)、分子描述符预测(Molecular Descriptor Prediction)和分子功能基团预测(Molecular Functional Group Prediction)这三个自我监督任务来学习药物分子的表示。在靶点蛋白预训练模块,利用 Transformer 注意力图,从大量蛋白质序列数据中提取靶点蛋白的特征。最后,在下游药物 - 靶点预测模块,借助自动机器学习(AutoML)技术,整合药物和靶点的表示,实现对 DTI、DTA 和 MoA 的预测。

下面来详细看看研究结果。

  • DTIAM 在 DTI 预测任务中的表现:研究人员将 DTIAM 与四种基线方法,包括 CPI_GNN、Transformer_CPI、MPNN_CNN 和 KGE_NFM,在 Yamanishi_08’s 和 Hetionet 基准数据集上,进行了三种常用且更符合实际的交叉验证设置,即热启动(warm start)、药物冷启动(drug cold start)和靶点冷启动(target cold start)。在较小的 Yamanishi_08’s 数据集上,DTIAM 在三种实验设置下都展现出了更高且更稳健的预测性能,尤其是在冷启动设置中。在热启动场景下,DTIAM 的平均精度召回率(AUPR)达到 0.931,相比 CPI_GNN(AUPR = 0.431),优势显著。在冷启动场景中,虽然所有方法的 AUPR 和受试者工作特征曲线下面积(AUROC)值都有所下降,但 DTIAM 仍能保持相对较高的预测性能。在较大的 Hetionet 数据集上,DTIAM 在热启动、药物冷启动和靶点冷启动场景中,分别取得了较好、最好和第二好的预测性能。这充分证明了 DTIAM 在捕捉化合物子结构和蛋白质子序列的潜在特征方面具有强大的能力,即使面对未知的药物或靶点,也能实现高精度、稳健的预测。
  • DTIAM 在 DTA 预测任务中的表现:在 DTA 预测任务中,研究人员将 DTIAM 与 DeepDTA、MONN、BACPI 和 GraphDTA 这四种基线模型进行比较,在 Kinase 数据集 Davis 和 KIBA 数据集上,进行了三种实验设置,并采用 5 折交叉验证评估模型性能。结果显示,DTIAM 在所有实验设置下,在两个数据集上都取得了更好的预测性能,特别是在冷启动设置中表现突出。在热启动场景下,DTIAM 和基于图的方法 MONN、BACPI、GraphDTA 都取得了较高的预测性能,而基于序列的方法 DeepDTA 由于模型结构的限制,表现相对较差。在冷启动场景中,虽然所有方法的预测性能都有所下降,但 DTIAM 依然表现最佳,这表明它具有很强的泛化能力,能够成功预测药物与靶点之间的结合亲和力。
  • DTIAM 在 MoA 预测任务中的表现:在 MoA 预测任务中,研究人员将其视为两个不同的二元分类任务,即预测给定药物 - 靶点对是激活还是抑制作用。使用来自治疗靶点数据库的两个不同的 MoA 数据集(激活和抑制),将 DTIAM 与 AI - DTI 进行 5 折交叉验证比较。结果表明,DTIAM 在所有三种实验设置下,在激活和抑制数据集上都显著优于 AI - DTI。在较小的激活数据集上,DTIAM 在热启动、药物冷启动和靶点冷启动场景下,AUPR 分别提高了 16.1%、17.9% 和 26.8%。在抑制数据集上,随着标记药物 - 靶点对数量的增加,DTIAM 和 AI - DTI 的评估性能都大幅提升,且 DTIAM 在热启动和药物冷启动场景下表现略好,在靶点冷启动场景下,DTIAM 的 AUPR 比 AI - DTI 高出 34%。此外,研究人员还对 10 个特定靶点进行验证,发现 DTIAM 的预测准确率超过 93%,其中 HTR1D 的预测准确率达到 100%,9 个靶点的 AUROC 值高于 0.96,这充分证明了 DTIAM 能够准确区分药物与靶点之间的激活和抑制关系。
  • DTIAM 识别 TMEM16A 的潜在抑制剂:为了进一步验证 DTIAM 的有效性,研究人员利用该框架从高通量筛选分子库中预测 TMEM16A 的潜在抑制剂。TMEM16A 是一个重要的药理靶点,其功能异常与多种疾病相关。研究人员首先使用 DTIAM 的 DTI 预测模型对约 1000 万种化合物进行评分,选取排名前 50,000 的分子(约前 0.5%,以确保化合物的多样性)。然后,根据 Lipinski 规则过滤化合物,去除泛分析干扰化合物,并基于指纹相似性对分子进行聚类,得到约 350 个簇。最后,从排名靠前的簇中选取 75 个代表性化合物。经过实验验证,发现大豆苷元(daidzein)和去氢木香内酯(dehydrocostus lactone)对 TMEM16A 具有抑制作用。其中,去氢木香内酯经全细胞膜片钳实验验证,在抑制 TMEM16A 转染的 HEK293T 细胞中,其半数抑制浓度(IC50)为 111.97 ± 22.96 nM,这充分证明了 DTIAM 在识别潜在药物方面的可靠性。
  • DTIAM 对 EGFR 和 CDK 4/6 的虚拟筛选:研究人员还测试了 DTIAM 在药物虚拟筛选中的适用性,对表皮生长因子受体(EGFR)和细胞周期蛋白依赖性激酶 4/6(CDK 4/6)进行研究。EGFR 的抑制剂可用于治疗由 EGFR 上调引起的癌症,如非小细胞肺癌和胰腺癌;CDK 4/6 抑制剂常用于治疗乳腺癌等癌症。研究人员使用 Yamanishi_08’s 数据集(去除包含 EGFR 的 DTIs)训练 DTIAM,预测 EGFR 与数据集中所有药物的潜在相互作用,以及与 13 种已批准的 EGFR 抑制剂的相互作用。结果发现,13 种 EGFR 抑制剂中有 9 种在预测的前 15 种潜在药物中被成功发现,12 种排名在前 50 位。同样,对于 CDK 4/6,研究人员使用 Yamanishi_08’s 数据集(去除包含 CDK 4 和 CDK 6 的 DTIs)训练 DTIAM,预测 CDK 4/6 与数据集中所有药物以及 4 种已批准抑制剂的相互作用,结果成功预测出 4 种批准的 CDK 4/6 抑制剂,并且通过对接研究发现,多种预测的潜在药物能够与 CDK 6 结合,这表明 DTIAM 可有效应用于药物虚拟筛选,为加速药物研发提供了有力工具。
  • 消融研究:研究人员进行了消融研究,以测试预训练模型的有效性。将 DTIAM 与其他基线模型在不同规模的标记数据下,进行 DTI、DTA 和 MoA 预测任务比较。结果发现,随着训练样本数量的增加,所有方法的预测性能都有所提高,但 DTIAM 在所有数据划分下都表现最佳,尤其是在训练数据较少(20% 和 40%)的情况下,优势更为明显。此外,研究人员还对分子预训练模型中不同自我监督任务组合的影响进行了研究,发现分子功能基团预测(MFGP)任务对性能的影响最大,特别是在药物冷启动场景中。在两个自我监督任务的组合中,基于掩码语言建模(MLM)和分子功能基团预测(MFGP)训练的分子模型表现最佳。

研究结论表明,DTIAM 作为一个统一框架,能够有效预测 DTIs、DTA 和 MoA,为药物研发提供了强大的工具。通过自我监督预训练,DTIAM 能够从大量未标记数据中提取准确的特征,在各种预测任务中表现优异,即使在数据有限的情况下也能取得良好的效果。然而,研究也指出,蛋白质靶点对特定化合物的敏感性受到多种因素的影响,如蛋白质动力学、蛋白质突变、细胞和膜环境等。在未来的研究中,研究人员将考虑将蛋白质动力学纳入模型,以提高模型的稳健性和可解释性,并整合蛋白质突变信息,增强模型在关键突变位点的敏感性。这一研究成果为药物研发领域开辟了新的道路,有望加速新型药物的发现和开发进程,为人类健康事业带来新的希望。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号