基于矩阵分解加权伪标记框架的药物不良反应预测新方法研究

【字体: 时间:2025年02月18日 来源:BMC Bioinformatics 2.9

编辑推荐:

  本研究针对药物不良反应(ADR)预测中药物-ADR关联矩阵高度稀疏的难题,提出了一种整合多权重矩阵分解(MF)模型的新型加权伪标记框架(WPLMF)。通过挖掘潜在药物-ADR对作为伪标记数据,结合创新的权重分配策略,在SIDER数据库稀疏数据上实现了0.6553的AUPR和0.6095的F1值,为临床用药安全预警提供了有效工具。

  

药物不良反应(ADR)是全球公共卫生领域的重要问题,每年导致大量治疗相关死亡和巨额医疗负担。美国FDA数据显示,2022年严重ADR报告占比高达53.86%,死亡率达7.46%。然而,由于临床试验样本量限制,药物上市前难以全面检测ADR,传统实验方法面临巨大挑战。这促使研究人员转向机器学习方法,通过挖掘公共数据库中的药物-ADR关联规律进行预测。

当前ADR预测主要采用矩阵分解(MF)和神经网络(NNs)两类方法。MF通过分解稀疏的药物-ADR关联矩阵获取潜在特征,但面临矩阵稀疏性问题;NNs虽能捕捉复杂非线性关系,却存在负样本选择偏差的固有缺陷。特别是,现有方法将未知药物-ADR对简单归为负样本,忽略了其中可能包含的真实阳性样本,导致预测性能受限。

针对这些关键问题,研究人员开发了基于加权伪标记矩阵分解(WPLMF)的新型预测框架。该研究创新性地将伪标记技术引入MF模型,通过多权重MF模型挖掘潜在药物-ADR对作为伪标记数据,采用创新的权重分配策略平衡伪标记质量与数量,有效缓解了矩阵稀疏性带来的负面影响。

研究采用SIDER和DrugBank数据库数据,构建包含1177种药物和4247种ADR的关联矩阵,稀疏度仅为0.027。关键技术方法包括:(1)基于Node2vec的生物知识图谱嵌入,获取药物特征表示;(2)多MF模型集成挖掘高质量伪标记;(3)受Focal loss和EL2N启发的加权方案,权重计算公式为wij=-(αγln(yij′+ε)+(1-α)γln(1-yij′+ε));(4)五折交叉验证评估体系。

性能分析与比较

在相同实验条件下,WPLMF的AUPR达0.6553,F1-score达0.6095,显著优于FGRMF、idse-HE等基线方法。特别在稀疏场景下,当训练集比例降至60%时仍保持最佳性能,验证了框架的鲁棒性。

质量与数量的权衡

通过调节伪标记筛选阈值(0.8)和惩罚系数α(0.9),实现了伪标记质量(命中率)与数量的最优平衡。研究表明,高质量伪标记对性能提升贡献更大。

消融研究

移除集成、伪标记或Node2vec任一组件均导致性能下降,证实各模块的不可或缺性。伪标记主要改善了中高频药物-ADR对的预测误差。

案例研究

对SIDER未记录的Top30预测结果进行验证,23组获得文献支持。针对长尾药物和ADR的预测准确率约50%,显著优于随机水平。

该研究证实,加权伪标记能有效解决MF在ADR预测中的矩阵稀疏性问题。创新性体现在:(1)首次将伪标记技术与MF结合;(2)提出针对MF特性的加权方案,避免对高频ADR的过拟合;(3)框架在极端稀疏条件下仍保持优越性能。局限性在于对极低频ADR预测改进有限,未来可通过引入多视图药物特征进行优化。研究成果为药物安全监测提供了新思路,对降低临床用药风险具有重要意义。论文发表于《BMC Bioinformatics》,为ADR预测领域提供了可靠的方法学参考。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号