综述:人工智能在广谱药物相互作用预测中的应用全景:系统性综述

【字体: 时间:2025年09月20日 来源:Journal of Cheminformatics 5.7

编辑推荐:

  本综述系统梳理了2018-2024年间147项研究,首次全面描绘了人工智能(AI)在药物相互作用预测领域的应用版图。文章详细分析了机器学习(ML)、深度学习(DL)和图学习方法(GBM)在预测药物-药物(DDI)、药物-疾病(DDSI)及药物-营养素(DNI)相互作用中的前沿进展,强调了知识图谱(KG)与大型语言模型(LLM)在提升模型可解释性和解决数据稀疏性方面的突破性价值,为构建更安全、个性化的临床用药方案提供了重要理论支撑。

  

引言

药物相互作用深刻影响药物治疗的安全性与有效性,涉及药物-药物(DDI)、药物-疾病(DDSI)及药物-营养素(DNI)等多种类型。这些相互作用常交织形成复杂网络,亟需精准预测以改善患者预后。人工智能(AI)技术凭借其强大的数据处理与模式识别能力,正成为推动该领域发展的核心动力。近年来,基于大规模数据库(如DrugBank、TWOSIDES、SIDER)的机器学习(ML)、深度学习(DL)和图学习方法(GBM)显著提升了相互作用预测的精度,但仍面临数据不平衡、来源噪声、模型可解释性不足及某些相互作用类型代表性不够等挑战。

人工智能技术在药物-药物相互作用预测中的应用

机器学习方法

早期研究采用k近邻(k-NN)和支持向量机(SVM)等经典ML算法,聚焦于易于获取的药代动力学(PK)特征。利用药物相似性构建SVM核函数有效提升了模型捕捉药物对间相互作用的能力。为应对数据稀缺问题,半监督学习与自编码器被引入,结合加权SVM处理高风险DDI。电子健康记录(EHR)的整合进一步丰富了药物警戒数据,贝叶斯传播神经网络与排序算法被用于验证新的相互作用信号。针对新药的冷启动问题,三步核岭回归模型表现出色,曲线下面积(AUC)值显著。为区分真实相互作用与偶然关联,逻辑回归与因果交互模型、倾向评分调整混合模型被用于减少假阳性,提升检测特异性。

深度学习创新

深度学习通过多层信息处理自动学习复杂特征,克服了传统ML的过拟合与可解释性局限。深度神经网络(DNN)结合语义分析可对65种DDI事件类型进行精细分类。卷积神经网络(CNN)用于特征学习,对比学习通过在大规模分子数据集上预训练提升特征鲁棒性。研究从二元预测转向特定事件(如协同或拮抗效应)预测,并融合分子结构与外部知识图谱(KG)学习多模态表示,提升跨任务性能。为减少对标注数据的依赖,自监督对比学习被用于无标签数据集预训练。注意力门控机制与多层神经网络整合基因表达、基因本体和靶基因相似性剖面,增强了模型可解释性。从生物医学文献中提取DDI信息的技术也日益成熟,双向长短期记忆网络(BiLSTM)与注意力机制、CNN池化、递归神经网络(RNN)及树状LSTM模型实现了自动化提取。针对一词多义问题,BioBERT与CNN注意力模型优化了语义表示与歧义处理。混合网络(如双向门控循环单元与CNN结合)、高斯噪声增强及主动学习策略被用于解决数据不平衡与模型鲁棒性问题。

图学习方法

图方法通过结构化数据、统一核函数、卷积方案与定向图注意力网络应对ML与DL的挑战,显著提升了模型可解释性。关键进展包括:通过不相交交叉验证方案处理新药泛化问题;异质知识图谱与集成分类器减少预测偏差;图卷积网络(GCN)实现亚结构特异性分析与自适应采样,提升真实场景精度。整合SMILES结构特征与拓扑特征,并聚合多源数据的图神经网络(GNN)有效降低了噪声与复杂性。对抗自编码器使用Wasserstein距离生成更合理的负样本,神经分解机建模高阶特征交互。图注意力机制(如GAT)与深度注意力网络通过显式建模药物内相互作用与共注意力机制提升性能。2022年后,多类型特征融合与GNN整合分子结构、相互作用数据及拓扑关系成为主流。3D分子图、SciBERT与位置嵌入增强了分子特征可解释性。双注意力感知网络与知识图谱共嵌入聚焦语义关系建模与高阶连接性,多维度表示显著提升了预测准确性。针对可扩展性与计算效率问题,超图神经网络与随机游走方法成功建模药物与副作用间的高阶关系。冷启动问题通过查找邻接矩阵分解(MF)与传播机制、基于相似性的查找函数及广义映射函数得到解决。2024年,双视图学习框架(如DSN-DDI模型)同时处理药物内与药物间表示,异质GNN(如HetDDI模型)捕捉多样KG关系。多模态融合结合分子图、生化特征与KG,减少冗余并聚焦高影响相互作用。关系感知模型通过定向关系嵌入与双向优化处理不对称DDI,实现角色特异性洞察。自动化图架构搜索(如AutoDDI模型)与自适应机制优化亚结构级特征,处理噪声分子数据。知识图谱增强的采样扩展至高阶关系(如KGRLFF模型),可视化工具与知识子图提升了预测可解释性与用户信任。

人工智能在药物-疾病相互作用预测中的进展

机器学习方法

矩阵分解(MF)结合药物特征与疾病语义相似性是初期主流方法,但存在噪声问题。异质网络整合多相似性度量,半监督模型或药物-疾病-基因三方网络避免负训练集需求,提升预测可信度。RepCOOL模型整合异质生物网络与随机森林分类器,应对数据稀疏性。高斯相互作用剖面(GIP)核与L2,1范数正则化减少干扰与过拟合。非负矩阵分解(NMF)将特征投影至低维空间,保持多样性并优化相似性融合。动态添加双线性MF确保生物学意义。多任务学习与矩阵三因子分解整合多样关联类型与先验知识,限制玻尔兹曼机(RBM)提升性能。监督重启随机游走(RWR)整合多数据库,以基因集为起点引导学习过程。图正则化NMF结合加权最近邻重建推断新药与新疾病的相互作用剖面,显著减少数据稀疏性。基因表达数据整合疾病相关基因活性与药物处理表达谱,张量分解与神经网络建模复杂药物-基因-疾病关联。系统生物学方法整合基因表达特征与信号通路,构建药物-疾病网络以增强重定位预测。蛋白质相互作用分析通过ML预测蛋白质-相互作用热点,随机森林整合多蛋白相似性提升DDSI预测精度。药物数据识别频繁禁忌诊断,专家算法与机器学习增强社区药房与临床实践中的用药安全。

深度学习模型

GIP核增强特征表示是DL常用策略,与自编码器结合降噪或与深度门控循环单元模型克服有限特征表示。DenseCNN模型结合GIP与卷积块注意力模块表现出最优性能。稀疏自编码器与GIP及旋转森林结合提升稳定性与鲁棒性。相似性网络融合与神经网络改进预测性能,但多数据类型整合仍存挑战。异质网络构建、拓扑特征提取与DNN减轻过拟合。HeteroDualNet模型采用双CNN架构,整合药物内相似性、疾病内相似性及DDSI至异质层,从直接与邻近关系中学习。Sigmoid核CNN整合多相似性度量提取有意义特征,应对数据稀疏与噪声。双向长短期记忆网络(BiLSTM)捕捉局部与序列特征,提升泛化能力。

图学习方法

图卷积网络(GCN)与注意力机制整合异质网络,改进特征传播与可扩展性。图卷积自编码器整合多源数据、节点属性与原始特征,提升预测精度。GCN框架结合自编码器、注意力机制与链接预测,整合多样数据源,构建带事件节点的异质图结构,建模药物-靶点-疾病关系。知识图谱模型整合基因型与表型数据增强药物-疾病推断;GNN模型(如GDRnet)使用多层异质图建模复杂相互作用;REDDA采用异质GNN与注意力机制改进嵌入学习与可解释性;DTD-GNN引入带事件节点的异质图结构,结合GCN与GAT增强特征表示与链接预测;DT2Vec+通过异质图挖掘整合药物-药物、蛋白质-蛋白质及药物/蛋白质-疾病关联至低维向量,预测药物-靶点相互作用及其类型。尽管GBM潜力巨大,其在DDSI预测中的应用仍处于早期阶段,先进图框架有望更有效建模复杂关系,文献挖掘方法(如Transformer)可提供更多数据集,扩展预测范围与准确性。

人工智能在药物-过敏与药物-营养素相互作用预测中的探索

药物-过敏相互作用(DAI)

准确记录DAI对安全用药至关重要。北京儿童医院研究显示,关键句选择结合领域特定Transformer(如ClinicalBERT)与ML分类器是识别罕见严重药物过敏反应的最佳方法。MTERMS工具提取自由文本与药物数据,映射至SNOMED-CT并标准化过敏记录。ML模型整合22个结构化数据特征与NLP识别的临床笔记关键症状,检测过敏输血反应。规则型NLP系统检测药物挑战试验结果与过敏列表间的不匹配,实现实时警报提升患者安全。

药物-营养素相互作用(DNI)

DNI源于药物与营养素间的物理、化学、生理或病理生理关系,可能增加营养风险,导致微量营养素缺乏,降低药物有效性并放大副作用。多药并用(尤其在40-55%共病老年人中)是主要驱动因素。AI与计算模型为预测管理DNI及相关相互作用(如DFI、DMI、DSI)提供强大工具。

药物-食物相互作用(DFI)建模

膳食成分通过影响代谢、吸收与生物利用度改变药物效能与安全性。2018年始,DNN框架使用SMILES与药物名称预测256种食物的药理效应及149种食物成分的生物活性,实现高精度。后续研究采用ML技术,如XGBoost提取DFI,随机森林、SVM与KNN分析食物添加剂与药物辅料间相互作用(尤其是阻断酶与转运体的能力)。图方法(如FDMine与DFinder)利用图挖掘与GCN实现顶级性能。NLP与文本挖掘技术促进数据集开发(如FooDrugs),从科学文献中标注DFI语料。多模态数据源整合与模型可解释性增强是未来改进DFI预测的关键。

药物-补充剂相互作用(DSI)

未经监测的DSI可能带来严重风险。临床数据将华法林与大蒜、银杏、人参、圣约翰草及维生素E等补充剂关联,增加胃肠道出血等不良事件风险。三项研究采用NLP挖掘多样数据源识别潜在临床相关的新DSI。模型利用NLP从临床笔记提取信息,随后使用Cox比例风险模型等统计方法识别不良事件风险。Lasso回归、SemRep与语义路径(如补充剂-基因与基因-药物)挖掘生物医学文献。专用知识图谱SuppKG通过PubMedBERT模型生成新DSI假设,提供更全面的预测分析工具。类似地,药物-草药相互作用(DHI)研究显示,心血管药物与草药结合时,node2vec表现最佳。

药物-微生物组相互作用(DMI)

微生物组调节药物代谢的作用日益受到关注。实验证据表明,微生物群可激活柳氮磺吡啶、灭活地高辛并将溴夫定转化为毒性代谢物,这些效应与个体微生物组变异相关。研究 curated 455例DMI案例,使用调优的极端随机化树分类器预测药物对微生物代谢的敏感性。另一研究结合药物化学特性与微生物基因组特征,利用随机森林预测单个药物对微生物生长及更广泛微生物群落变化的影响。近期工作聚焦药物如何改变微生物组本身,13个ML模型评估药物对肠道细菌菌株的影响,创建预测工具评估药物诱导的生态失调及相关健康风险。动态人工胃肠道模型ABIOME结合多元自适应回归样条(MARS)ML模型分析益生菌间相互作用,预测代谢产物的协同效应。

数据集在药物相互作用预测中的角色

多样化的数据集推动了药物相互作用预测的进步,覆盖DDI、DDSI及DNI(包括食物、草药、微生物组与补充剂相关相互作用)。随时间推移,多个数据库已成为基础资源,提供结构化见解驱动AI模型发展。

DDI与DDSI数据集

DrugBank作为核心资源,详细记录超过17,000个条目,涵盖小分子、生物制品与实验药物及其靶点。TWOSIDES捕获多药使用导致的副作用,涵盖645种药物的63,473个药物对及1,317种副作用。KEGG双重角色:映射DDI通路并整合基因组与系统数据揭示DDSI。SIDER与PubChem通过链接药物机制与副作用、提供化学结构数据支持副作用预测与药物重定位。OMIM专注人类基因与遗传疾病,提供基因-疾病关联,是理解表型相似性与疾病定义的关键。DeepDDI提供近200,000个药物对的多类数据集;DRKG整合药物、基因与蛋白质关系构建知识图谱。OFFSIDES聚焦临床试验未捕获的脱标副作用;CTD curated 化学-基因-疾病关联促进DDSI研究。基准数据集如Fdataset(1,933个DDSI,源自DrugBank与OMIM)与Cdataset(整合药物相似性与表型信息)作为金标准。DAI研究通常使用私有医疗系统的EHR,如北京儿童医院数据集包含2012-2020年间315,608名患者的431,000份住院记录;Mass General Brigham系统数据集包含至少一条活跃过敏条目的患者记录;输血数据集86,764例案例中146例报告过敏反应,用于评估输血相关不良事件。

DNI数据集

DSI研究得到多种数据源与专用工具支持。PubMed提供 curated 摘要,支持提取与DSI相关的语义关系,借助定制NLP工具SemRepDS与膳食补充剂专用数据库iDISK实现。SemMedDB提供超过6,900万语义断言,源自2,360万MEDLINE引用。部分研究使用EHR(如明尼苏达大学存储库,覆盖超200万患者)提供DSI的深层临床见解。DFI数据源包括药物靶点、食物化合物与营养成分的全面信息。文本挖掘工具(如DFinder)从PubMed与DrugBank提取DFI;IIG与FDA的GRAS列表将数据转化为生物活性化合物结构。FooDrugs整合自DDICorpus、PubMed与ClinicalTrials.gov的数据,应用Gene Expression Omnibus与Connectivity Map进行转录组分析。DMI数据集链接肠道细菌物种与药物代谢,一项研究使用基因组与宏基因组数据评估细菌药物代谢能力;另一数据集包含41,519个DMI,源自40个微生物菌株暴露于1,197种药物的体外筛选,利用148个微生物基因组特征、92个药物特征及DrugBank与KEGG数据预测相互作用。DHI研究常依赖心血管疾病草药相关数据集,使用DrugBank、DrugCentral、TCMID、ETCM、TCMSP与PubChem数据库预测药物靶点与评估药代动力学。

数据集可用性在不同相互作用类型间差异显著,影响模型性能。DDI拥有丰富可访问数据集,但需更多患者级与纵向数据捕捉真实世界变异与长期效应。DNI(包括DFI与DMI)因缺乏广泛公共数据集而受限。DDSI与DAI需多源整合以获得全面见解,额外公共疾病特异性数据将增强预测。扩展数据集可用性与丰富性对推进个性化医疗与支持数据密集型AI模型至关重要。

挑战与机遇

AI驱动的药物相互作用预测面临多项关键挑战:(1)缺乏经过充分验证的负例,导致数据集不平衡并复杂化评估;(2)整合多样数据源(如分子结构、文献、药物信息学与临床记录)受噪声与不完整性阻碍;(3)预测模型的可解释性与可信度有限,尤其在需要透明度与可辩护性的临床环境中;(4)传统模型处理非结构化复杂数据(如临床笔记、研究论文与药物标签)存在困难;(5)资源限制制约可扩展性;(6)DNI与DAI等相互作用类型在数据集中代表性不足,尽管其具有临床相关性。

这些挑战可通过结合大型语言模型(LLM)与知识图谱(KG)应对。LLM有效处理非结构化与噪声数据,而KG提供结构化验证,桥接数据缺口并减少偏差。这种协同确保稳健的数据整合,并通过将预测锚定于可信知识增强模型可解释性。可解释AI方法(如SHAP、LIME、反事实解释与注意力机制)通过将预测归因于具有生物学或临床意义的特征来弥补这一差距。重要的是,KG通过将生物医学知识嵌入模型并启用可追踪解释的基于路径的推理来增强可解释性。同时,LLM通过将复杂模型输出转化为人类可理解的叙述,为解决深度学习系统黑箱性质与增加用户信任提供了有前景的方向。

从模糊模型向透明、临床接地系统的演进对实际应用至关重要。通过补充LLM,KG验证输出、改进推理并支持透明决策——对医疗等高风险应用至关重要。资源与可扩展性限制制约了先进模型在受限环境中的使用。SLM提供实用高效替代方案,可在低RAM设备上运行,实现本地实时处理并确保强数据隐私。其快速低延迟推理与无云依赖特性使其非常适合移动、边缘与实时应用。SLM易于在医疗或法律等领域微调,且常在此类场景中超越通用LLM。它们适用于API调用、移动控制与医疗紧急任务,同时降低成本并解决隐私顾虑。未来研究应探索将基因组学(如基因组、转录组、表观基因组)、临床与微生物组数据与现有AI驱动方法整合。这种多模态整合——由KG与LLM支持——可提升预测准确性,实现更细微的情境理解,并推进药物相互作用建模中的个性化医疗。

为解决DNI与DAI的代表性不足问题,未来研究必须丰富数据集并开发专用算法。DNI(如DFI、DMI与DSI)常被忽视,尽管其具有临床影响。类似地,预测DAI受隐私限制的临床数据、不完整数据集及缺乏专用算法阻碍。两者均需利用遗传、生化与分子数据的多样AI模型提升准确性。映射药物、营养素与疾病间高阶相互作用的综合模型对改进预测与推进个性化医疗至关重要。

结论

本系统性综述首次提出AI驱动模型预测多样药物相互作用(包括DDI、DDSI与DNI)的全面分类法,综合了2018-2024年间147项研究的方法学、模型类型与挑战。除概述关键机器学习、深度学习与图方法外,我们强调了大型语言模型(LLM)与知识图谱(KG)的革命性角色,尤其是与可解释AI技术(如SHAP、LIME与注意力机制)结合以增强临床可解释性。尽管取得进展,DNI与DAI等代表不足的相互作用类型仍存在巨大缺口,其预测性能与透明度均有限。未来研究应聚焦将KG与LLM或资源高效的小型语言模型(SLM)结合,并辅以稳健的可解释AI框架,以实现可扩展且临床可信的预测。这种整合对建模跨越多生物系统的高阶重叠相互作用尤为关键。此外,融入领域特定知识与基于图的推理可解锁对药物相互作用复杂互联本质的更深刻见解。通过应对数据异质性、有限可解释性及被忽视的相互作用类型,本综述为下一代AI工具奠定基础,这些工具不仅预测不良相互作用,还提供可操作的个性化见解以改善真实世界临床环境中的药物安全与治疗精确性。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号