
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于拓扑关系保持嵌入的药物-蛋白质相互作用预测新方法GLDPI显著提升不平衡数据预测性能
【字体: 大 中 小 】 时间:2025年08月07日 来源:BMC Biology 4.5
编辑推荐:
为解决药物-蛋白质相互作用(DPI)预测在真实世界不平衡数据中准确率低、泛化性差的问题,Yanfei Li等开发了GLDPI模型。该研究通过保持分子嵌入的原始拓扑关系,结合基于"关联推定"(GBA)原则的先验损失函数,在BioSNAP和BindingDB数据集上实现AUPR指标100%的提升,并能高效预测1.2×1010药物-蛋白质对,为药物重定位提供新工具。
在药物研发领域,准确预测药物与靶蛋白的相互作用(DPI)是发现新药和药物重定位的关键。然而现有方法面临两大困境:一是真实世界数据存在极端不平衡——已知相互作用仅占所有可能组合的不到0.1%;二是传统模型难以同时捕捉分子层面的特征和网络层面的拓扑关系。这导致现有预测系统在实验室验证时经常"失灵",严重制约了计算药物发现的可靠性。
针对这一挑战,中国某研究机构的研究团队在《BMC Biology》发表了一项突破性研究。他们开发的GLDPI模型创新性地将分子网络拓扑信息融入深度学习框架,通过保持嵌入空间的原始结构关系,在不平衡数据上实现了AUPR指标翻倍的提升。更令人振奋的是,该模型仅用10小时就完成了对人类基因组规模(约1.2×1010对)的相互作用预测,为大规模虚拟筛选提供了实用工具。
研究采用三大关键技术:1)基于摩根指纹(Morgan fingerprint)和ESM2蛋白语言模型的分子特征编码;2)构建包含药物相似性、蛋白相似性和已知DPI的异质网络;3)创新性设计"关联推定损失函数"(GBA_Loss),通过余弦距离约束保持嵌入空间与原始网络的拓扑一致性。实验特别设计了1:1000的极端不平衡测试集模拟真实场景。
预测性能
在BindingDB数据集1:1000不平衡测试中,GLDPI的AUPR达到0.557,是次优模型的3倍。如图2所示,在Top-1000预测结果中,GLDPI识别出的真实相互作用数量是基线方法的5-8倍。分子对接验证显示,模型预测的20个候选相互作用中有11个获得实验证实。
冷启动实验
如图3所示,对于全新蛋白的预测任务,GLDPI的AUROC(0.893)比现有方法提高30%。在独立测试集Davis上,该模型成功预测了多个激酶家族的药物结合特性。
拓扑关系保持机制
研究通过消融实验证实了拓扑保持的关键作用:移除GBA_Loss中的网络约束后,模型在1:1000数据上的AUPR从0.274骤降至0.139。有趣的是,当将GBA_Loss应用于传统模型ConPLex时,其性能也获得显著提升,证明该机制的普适性。
这项研究的意义在于首次实现了分子特征学习与网络拓扑保持的有机统一。通过GBA_Loss的"软约束"设计,模型既继承了深度学习强大的特征提取能力,又保留了关联推定原理的生物学合理性。案例研究显示,该模型能准确预测抗精神病药阿塞那平(Asenapine)与ADRA1B受体的结合(Ki=8.41),为精神疾病治疗靶点发现提供了新思路。
未来,这种拓扑保持范式可扩展到药物-疾病关联预测等领域。研究者特别指出,该方法对缓解"冷启动"问题具有独特优势——即使缺乏某些药物的相互作用数据,模型仍能通过网络拓扑推断其潜在靶点,这对罕见病药物开发尤为重要。随着AlphaFold等蛋白结构预测工具的普及,GLDPI的嵌入空间有望进一步与三维结构特征融合,开启药物发现的新范式。
生物通微信公众号
知名企业招聘