Hetero-KGraphDTI:融合知识图谱与异构图学习的药物-靶点相互作用预测新框架及其在阿尔茨海默病与COVID-19药物重定位中的应用

【字体: 时间:2025年10月22日 来源:Frontiers in Bioinformatics 3.9

编辑推荐:

  本综述系统介绍了Hetero-KGraphDTI这一创新框架,该框架通过整合多模态网络数据(药物-药物、靶点-靶点、药物-靶点相互作用)与生物医学知识图谱(Gene Ontology、DrugBank等),采用图注意力机制和负采样策略,显著提升了药物-靶点相互作用(DTI)预测的准确性与可解释性。研究在多个基准数据集(DrugBank、KEGG、IUPHAR、ChEMBL)上实现了最优性能(AUROC达0.987-0.991),并通过实验验证了其在阿尔茨海默病(AD)新靶点发现(如CHRM1、GRIN2A、BACE1)和COVID-19药物重定位(如瑞德西韦、伊维菌素、地塞米松)中的实用价值,为加速药物发现与重定位提供了强大计算工具。

  

1 引言

药物-靶点相互作用(DTI)预测是药物发现和重定位的核心环节,旨在识别化合物与生物大分子(主要是蛋白质)之间的结合关系。传统实验方法耗时耗力,而计算方法通过整合多源数据(化学结构、蛋白序列、相互作用网络)提供了高效解决方案。现有方法面临三大挑战:未标记样本的可靠性(正样本极少而负样本不确定)、多模态数据整合的复杂性(药物-药物、靶点-靶点、药物-靶点等多种关系类型),以及生物先验知识的有效利用。

2 方法

2.1 问题定义

DTI预测任务可形式化为:给定药物集合D(|D|=m)和靶点集合T(|T|=n),以及部分观察到的相互作用矩阵Y∈Rm×n(Yij=1表示已知相互作用,Yij=0表示未知),目标是学习一个映射函数f: D×T→R来预测任意药物-靶点对的相互作用得分。

2.2 增强负采样策略

针对正未标记(PU)学习问题,设计了基于 dissimilarity 的可靠负采样策略,结合化学空间和生物空间信息识别高置信负样本。对于药物di和靶点tj,计算可靠性得分rij
rij = α·ChemDissim(di, Nd(tj)) + β·SeqDissim(tj, Nt(di))
其中ChemDissim基于Tanimoto系数(分子指纹),SeqDissim基于Smith-Waterman比对得分。通过重要性权重wij = exp(γ·rij)/∑exp(γ·rkl)调整负样本在损失函数中的贡献,并采用迭代优化动态更新负样本集。

2.3 图构建

构建异构图G=(V,E),节点V=D∪T(药物和靶点),边E={E1, E2, ..., Ek}包含多种类型(药物-药物相似性、靶点-靶点相似性、已知相互作用等)。通过数据驱动方式学习图结构和边权重,而非预定义网络。对每种关系类型计算相似矩阵Sk,应用阈值函数得到二值邻接矩阵Ak。最终统一邻接矩阵ā由四个子矩阵组成:
ā = [ ADD ADT ; ATD ATT ]
其中各子矩阵通过加权聚合对应边类型的邻接矩阵得到(ADD = ∑λkAkDD等)。

2.4 图表征学习

采用图卷积编码器学习药物和靶点的低维嵌入(ZD∈Rm×h, ZT∈Rn×h)。第l层嵌入更新公式:
ZD(l) = σ(āDDZD(l-1)WDD(l) + āDTZT(l-1)WDT(l) + BD(l))
ZT(l) = σ(āTTZT(l-1)WTT(l) + āTDZD(l-1)WTD(l) + BT(l))
引入图注意力机制,通过MLP学习边重要性权重αijk = MLPk([zi∥zj]),调制邻接矩阵参与卷积运算(ā⊙α)。通过重构损失Lrec确保嵌入捕获原始特征信息。

2.5 知识整合

整合Gene Ontology(GO)、DrugBank等知识图谱作为额外信息源。知识图谱表示为三元组集合K={(h,r,t)},采用TransE模型学习实体和关系嵌入,定义评分函数fr(h,t)=zhTRrzt(Rr为关系特定对角矩阵)。通过边际排序损失Lkg最大化正三元组 plausibility、最小化负三元组得分。总损失函数整合重构损失和知识图谱损失:L = Lrec + λLkg

2.6 模型优化与推断

采用随机梯度下降(SGD)最小化损失函数,使用贝叶斯优化超参数(嵌入维度h、层数L、权重衰减λ、边际γ等)。训练完成后,对新药物-靶点对(di,tj),通过图编码器计算嵌入zDi和zTj,相互作用得分?ij = zDiTzTj。评估指标包括AUROC、AUPR、F1 score、P@K等,采用10折交叉验证确保统计稳健性。

2.7 超参数优化

超参数包括嵌入维度h、卷积层数L、权重衰减λ、知识图谱损失边际γ、学习率η等。采用贝叶斯优化(高斯过程代理模型)高效搜索超参数空间,以期望提升(EI)作为采集函数平衡探索与利用。

2.8 实现细节

基于PyTorch实现,使用PyTorch Geometric处理图操作,PyTorch Lightning简化训练。化学相似性计算用RDKit,序列相似性用BioPython,图操作用NetworkX。优化器Adam(lr=0.001, weight_decay=0.0005),嵌入维度h=128,层数L=3,批量大小256,最大训练轮数1000(早停)。知识图谱嵌入维度128,边际γ=1.0,损失权重λ=0.1。

2.9 数据集特定网络适配

针对不同DTI数据集分布差异,引入数据集特定网络适配机制。包括实体特定网络过滤(仅保留数据集中相关实体)、分布感知边重加权(基于数据集局部分布调整边权重)、自适应网络组合(学习数据集特定组合权重λD)、网络适配正则化(鼓励数据集特定与全局网络结构相似)。通过两阶段优化(先学λD后固定训练全模型)实现。

3 结果

3.1 数据集

在四个基准数据集评估:
  • DrugBank(v5.1.0):11,680个相互作用,2,554药物,2,504靶点
  • KEGG(v90.0):5,125个相互作用,1,005药物,1,074靶点
  • IUPHAR(v2020.4):9,414个相互作用,2,018药物,1,565靶点
  • ChEMBL(v27):16,362个相互作用(pChEMBL≥6.0),3,869药物,2,495靶点
    额外收集辅助数据:药物-药物相互作用(DrugBank)、靶点-靶点相互作用(STRING)、药物-疾病关联(SIDER)、靶点-通路关联(KEGG)、知识图谱(GO、DrugBank categories、KEGG pathways)。

3.2 与先进方法比较

比较方法包括DeepDTI(CNN序列/结构)、NeoDTI(网络集成+正则最小二乘)、DTIP(网络集成+RWR)、NRLMF(矩阵分解+邻域正则)。Hetero-KGraphDTI在所有数据集和指标上显著优于基线:
  • DrugBank:AUROC=0.987(+3.1%)、AUPR=0.792(+13.3%)
  • KEGG:AUROC=0.981(+2.3%)、AUPR=0.843(+10.7%)
  • IUPHAR:AUROC=0.985(+2.9%)、AUPR=0.804(+12.1%)
  • ChEMBL:AUROC=0.991(+1.6%)、AUPR=0.756(+15.4%)

3.3 消融研究

移除组件导致性能显著下降:
  • 无知识图谱(noKG):AUROC降3.2%、AUPR降5.6%(影响最大)
  • 无注意力(noAttn):AUROC降1.9%、AUPR降3.4%
  • 无多类型相互作用(noMult):AUROC降2.8%、AUPR降4.7%
  • 无药物-药物相互作用(noDD)和无靶点-靶点相互作用(noTT):类似下降幅度
    验证了知识整合、多类型特征、注意力机制的关键作用。

3.4 标准基准数据集评估

在DTINet、Hetionet、BioSNAP、BindingDB、Yamanishi_08等标准基准上评估,Hetero-KGraphDTI保持性能优势(AUROC提升1.2-2.1%,AUPR提升2.4-2.9%),尤其在复杂异构图结构(如Hetionet)上表现突出,证明方法的通用性和鲁棒性。

3.5 案例研究

3.5.1 案例1:阿尔茨海默病新靶点识别

针对20种AD药物(多奈哌齐、美金刚等)预测新靶点,top10预测靶点包括:
  • CHRM1(毒蕈碱胆碱能受体M1):胆能神经传递相关
  • GRIN2A(NMDA受体亚基):谷氨酸能神经传递、突触功能障碍
  • ACHE(乙酰胆碱酯酶):现有AD药物靶点
  • MAPT(微管相关蛋白tau):神经原纤维缠结
  • APP(淀粉样前体蛋白)、PSEN1(早老素1)、BACE1(β-分泌酶):淀粉样斑块通路
  • APOE(载脂蛋白E):最强遗传风险因子
  • BDNF(脑源性神经营养因子)、NGF(神经生长因子):神经营养因子
    实验验证(SPR、TSA):7/10靶点显示显著结合亲和力(Kd≤10μM),如多奈哌齐-ACHE(Kd=0.02μM)。

3.5.2 案例2:COVID-19药物重定位

预测2000种FDA批准药物与28种SARS-CoV-2蛋白的相互作用,top预测包括:
  • 瑞德西韦(RNA聚合酶抑制剂):已批准COVID-19治疗
  • 伊维菌素(抗寄生虫药):抑制3C样蛋白酶(NSP5)
  • 地塞米松(皮质类固醇):降低住院患者死亡率
  • 羟氯喹/氯喹(抗疟药):干扰刺突蛋白糖基化
  • 洛匹那韦/利托那韦(HIV蛋白酶抑制剂):测试用于COVID-19
  • 阿奇霉素(抗生素):抗病毒/免疫调节作用
  • 法匹拉韦(流感药物):抑制RNA聚合酶
  • 卡莫司他(抗纤维化药):抑制TMPRSS2(刺突蛋白 priming)
    体外实验(Vero E6细胞):8/10药物显著抑制病毒复制(EC50=0.1-10μM),瑞德西韦+伊维菌素组合显示协同效应(CI=0.3)。

3.5.3 冷启动评估

在冷药物(新药)、冷靶点(新靶点)、冷对(新组合)场景下评估:
  • 冷药物:AUROC=0.847(vs 基线0.781)
  • 冷靶点:AUROC=0.863(vs 基线0.798)
  • 冷对:性能下降最小,仍显著优于基线
    性能与辅助网络连接性、知识图谱注释丰富度正相关,证明方法对新实体预测能力。

4 讨论

Hetero-KGraphDTI通过整合多模态网络与知识图谱,采用图注意力与自适应负采样,实现了准确、可解释的DTI预测。知识整合(Lkg)和多重相互作用类型利用是关键创新点。案例研究证明其在靶点发现(AD)和药物重定位(COVID-19)中的实用价值。局限性包括对数据质量和完整性的依赖,未来可整合更多数据源(蛋白结构、基因表达、临床记录),扩展至多任务学习(多类型相互作用联合预测)、其他生物医学领域(药物-药物相互作用、蛋白-蛋白相互作用、疾病-基因关联)。

5 结论

Hetero-KGraphDTI提供了一个强大、通用的DTI预测框架,通过知识图谱与异构图学习整合多源数据,在多个基准和实际应用场景中表现优异,为加速药物发现和重定位提供了有价值工具,未来有望通过进一步开发和验证成为药物候选优先排序的重要辅助手段。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号