
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于自适应去偏学习的药物重定位新方法DRDM:破解长尾实体与流行实体偏倚难题
【字体: 大 中 小 】 时间:2025年06月06日 来源:Journal of Biomedical Informatics 4.0
编辑推荐:
针对药物重定位任务中因数据偏倚(如流行实体与长尾实体极化)导致的预测偏差问题,研究人员提出创新框架DRDM,集成动态去偏机制与双视图对比学习,显著提升长尾实体表征能力。实验证实其在三大数据集上AUROC/AUPR指标优于基线模型,为药物发现提供新思路。
在药物研发领域,寻找已有药物的新适应症(药物重定位)已成为缩短研发周期、降低成本的战略选择。然而,传统实验验证耗时长、费用高,而现有计算方法虽借助图神经网络(GNN)取得进展,却普遍忽视数据集内在的偏倚问题——尤其是"流行实体"(高频高关联节点)与"长尾实体"(低频低关联节点)的极化现象。这种偏倚导致模型过度关注流行实体,使长尾实体(可能蕴含新药效线索)的表征学习不足,严重制约预测准确性。
针对这一挑战,中国研究人员开发了名为DRDM的创新框架。该研究首次系统分析了Fdataset、Cdataset和LRSSL三大常用药物重定位数据集,发现它们均存在显著的节点极化特征。基于此,团队提出动态去偏机制:通过逐层计算实体权重,抑制流行实体的聚合影响,同时增强长尾实体的表征优先级。此外,引入双视图对比学习提供额外监督信号,进一步提升模型鲁棒性。实验显示,DRDM在10折交叉验证中AUROC和AUPR指标均超越基线模型,案例研究更揭示其发现新型药物-疾病关联的潜力。该成果发表于《Journal of Biomedical Informatics》,为药物重定位领域提供了首个专门解决数据偏倚问题的通用框架。
关键技术方法
研究结果
数据集特征分析
通过可视化三大数据集分布(Fdataset/Cdataset/LRSSL),发现药物/疾病节点均呈现两极分化:少数节点占据大量关联(流行实体),多数节点关联稀疏(长尾实体)。这种结构易导致GNN聚合时流行实体嵌入过度相似,而长尾实体难以捕获全局信号。
去偏机制有效性验证
消融实验表明,动态权重调整使长尾实体AUPR提升12.7%-18.3%。案例研究中,DRDM成功预测了传统方法遗漏的甲氨蝶呤(Methotrexate)与类风湿关节炎关联,证实其挖掘隐性药效的能力。
对比学习的增益效应
双视图对比学习使模型在数据稀疏场景下AUROC稳定提高2.3%-5.1%,证明额外监督信号可缓解数据稀疏性。
跨数据集泛化性
在未见数据集上测试时,DRDM性能波动小于基线模型(标准差降低31%),显示其架构的强适应性。
结论与意义
该研究首次揭示药物重定位数据集的节点极化现象,并提出针对性解决方案DRDM。其创新性体现在三方面:
研究团队(Yajie Meng/Yi Wang等)强调,DRDM的通用设计可扩展至其他生物医学网络分析任务,如药物-靶点预测或疾病基因挖掘。未来工作将探索更精细的偏倚量化指标,并整合多组学数据进一步提升预测维度。该成果为破解数据偏倚这一AI辅助药物开发的共性难题提供了重要范式。
生物通微信公众号
知名企业招聘