基于自适应去偏学习的药物重定位新方法DRDM:破解长尾实体与流行实体偏倚难题

【字体: 时间:2025年06月06日 来源:Journal of Biomedical Informatics 4.0

编辑推荐:

  针对药物重定位任务中因数据偏倚(如流行实体与长尾实体极化)导致的预测偏差问题,研究人员提出创新框架DRDM,集成动态去偏机制与双视图对比学习,显著提升长尾实体表征能力。实验证实其在三大数据集上AUROC/AUPR指标优于基线模型,为药物发现提供新思路。

  

在药物研发领域,寻找已有药物的新适应症(药物重定位)已成为缩短研发周期、降低成本的战略选择。然而,传统实验验证耗时长、费用高,而现有计算方法虽借助图神经网络(GNN)取得进展,却普遍忽视数据集内在的偏倚问题——尤其是"流行实体"(高频高关联节点)与"长尾实体"(低频低关联节点)的极化现象。这种偏倚导致模型过度关注流行实体,使长尾实体(可能蕴含新药效线索)的表征学习不足,严重制约预测准确性。

针对这一挑战,中国研究人员开发了名为DRDM的创新框架。该研究首次系统分析了Fdataset、Cdataset和LRSSL三大常用药物重定位数据集,发现它们均存在显著的节点极化特征。基于此,团队提出动态去偏机制:通过逐层计算实体权重,抑制流行实体的聚合影响,同时增强长尾实体的表征优先级。此外,引入双视图对比学习提供额外监督信号,进一步提升模型鲁棒性。实验显示,DRDM在10折交叉验证中AUROC和AUPR指标均超越基线模型,案例研究更揭示其发现新型药物-疾病关联的潜力。该成果发表于《Journal of Biomedical Informatics》,为药物重定位领域提供了首个专门解决数据偏倚问题的通用框架。

关键技术方法

  1. 动态去偏机制:基于当前层嵌入动态计算实体权重,流行实体降权、长尾实体增权
  2. 双视图对比学习:构建节点级和图级对比任务,增强监督信号
  3. 异构网络建模:整合药物-疾病关联、药物/疾病相似性等多元数据
  4. 评估指标:采用AUROC(曲线下面积)和AUPR(精确率-召回率曲线下面积)

研究结果

数据集特征分析
通过可视化三大数据集分布(Fdataset/Cdataset/LRSSL),发现药物/疾病节点均呈现两极分化:少数节点占据大量关联(流行实体),多数节点关联稀疏(长尾实体)。这种结构易导致GNN聚合时流行实体嵌入过度相似,而长尾实体难以捕获全局信号。

去偏机制有效性验证
消融实验表明,动态权重调整使长尾实体AUPR提升12.7%-18.3%。案例研究中,DRDM成功预测了传统方法遗漏的甲氨蝶呤(Methotrexate)与类风湿关节炎关联,证实其挖掘隐性药效的能力。

对比学习的增益效应
双视图对比学习使模型在数据稀疏场景下AUROC稳定提高2.3%-5.1%,证明额外监督信号可缓解数据稀疏性。

跨数据集泛化性
在未见数据集上测试时,DRDM性能波动小于基线模型(标准差降低31%),显示其架构的强适应性。

结论与意义
该研究首次揭示药物重定位数据集的节点极化现象,并提出针对性解决方案DRDM。其创新性体现在三方面:

  1. 方法论突破:动态去偏机制通过可微权重调整,实现流行实体抑制与长尾实体增强的平衡;
  2. 技术整合:将对比学习引入药物重定位任务,开创性地结合去偏与自监督学习;
  3. 应用价值:不依赖领域先验知识的特性使其适用于多类型关联预测,尤其适合资源有限的研发场景。

研究团队(Yajie Meng/Yi Wang等)强调,DRDM的通用设计可扩展至其他生物医学网络分析任务,如药物-靶点预测或疾病基因挖掘。未来工作将探索更精细的偏倚量化指标,并整合多组学数据进一步提升预测维度。该成果为破解数据偏倚这一AI辅助药物开发的共性难题提供了重要范式。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号