
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于证据深度学习的药物-靶标相互作用预测框架EviDTI:提升药物发现效率与可靠性
【字体: 大 中 小 】 时间:2025年07月28日 来源:Nature Communications 14.7
编辑推荐:
本研究针对药物-靶标相互作用(DTI)预测中传统深度学习方法存在的过度自信、不确定性量化缺失等问题,开发了整合证据深度学习(EDL)的EviDTI框架。该研究通过融合药物2D/3D结构与靶标序列特征,结合预训练模型ProtTrans和MG-BERT,实现了高精度DTI预测与不确定性校准。实验表明EviDTI在DrugBank等三大基准数据集上超越11种基线模型,AUPR达88.45%,并通过酪氨酸激酶调节剂案例验证其发现新型多靶点抑制剂的能力,为加速药物研发提供可靠计算工具。
在药物研发领域,准确预测药物与靶标蛋白的相互作用(DTI)是缩短研发周期、降低失败率的关键。然而,传统实验方法成本高昂且效率低下,而现有深度学习模型虽能提高预测速度,却存在致命缺陷——它们像过度自信的新手,对所有预测都给出高概率结果,无法区分"确知"与"猜测"。这种缺陷导致大量虚假阳性被推进实验验证,每年造成数十亿美元的研发资源浪费。更棘手的是,当面对训练数据中从未出现过的新药或新靶标时,这些模型依然会盲目输出高置信度结果,如同没有"我不知道"选项的导航系统,将药物研发引入歧途。
针对这一行业痛点,中国科学院上海药物研究所等机构的研究团队在《Nature Communications》发表了突破性研究成果。研究人员创新性地将证据深度学习(EDL)引入DTI预测领域,开发出EviDTI框架。这一框架如同给AI装上了"不确定性雷达",不仅能预测相互作用概率,还能准确评估每个预测的可信度。通过整合药物分子的2D拓扑图(由MG-BERT编码)和3D空间结构(通过GeoGNN处理),以及靶蛋白的序列特征(由ProtTrans提取),EviDTI构建了多维特征融合的预测体系。其核心创新在于证据层设计,通过狄利克雷分布参数化预测不确定性,使模型能够明确区分高置信度预测与猜测性输出。
关键技术方法包括:1)使用ProtT5预训练模型提取1024维蛋白序列特征;2)采用轻量注意力(LA)模块解析残基级相互作用;3)整合MG-BERT和几何图神经网络处理药物2D/3D特征;4)构建证据层实现不确定性量化;5)通过ADP-Glo激酶实验验证预测结果,使用13种FDA新药构建外部测试集评估跨域预测能力。
性能比较
在DrugBank、Davis和KIBA三个基准数据集上,EviDTI全面超越11种基线模型。特别在DrugBank数据集上取得81.90%的精确度,AUPR达88.45%。冷启动场景下对未见药物预测准确率达79.96%,证明其强大的泛化能力。
多维特征融合
消融实验显示,同时整合药物2D拓扑和3D结构特征的完整模型性能最优,在Davis数据集上F1值比单特征模型提高2%。使用预训练模型(ProtTrans和MG-BERT)的特征提取使AUPR提升4.2%,证实预训练知识迁移的有效性。
不确定性量化
关键发现是EviDTI能准确校准预测误差——错误预测样本(FP/FN)的不确定性显著高于正确预测(p<1×10-10)。在最高置信区间(前5%),预测准确率超90%,而最低置信区间(后5%)准确率仅50-60%,为实验验证提供可靠优先级指导。
酪氨酸激酶案例
通过预测67个酪氨酸激酶与51个调节剂的相互作用,实验验证了7个高置信度预测。其中酪氨酸磷酸化抑制剂9(Tyrphostin 9)对FAK的抑制活性达35.7±3.4 nM,氟马替尼(Flumatinib)对FAK的IC50为14.9±2.1 nM,发现多个文献未报道的有效相互作用。
这项研究的突破性在于首次将EDL系统应用于DTI预测,解决了AI模型"盲目自信"的行业难题。通过不确定性引导的预测排序,研究者将实验验证的命中率提升至80%(Top10预测),较传统概率排序方法提高30%。EviDTI框架已开源,其技术路线可扩展至酶反应参数预测等其他生物分子相互作用研究领域。未来整合AlphaFold预测的3D蛋白结构,有望进一步突破现有性能瓶颈,为AI驱动的药物研发树立新范式。
生物通微信公众号
知名企业招聘