基于矩阵分解加权伪标记框架的药物不良反应预测新方法研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年02月18日 来源：BMC Bioinformatics 2.9

编辑推荐：

　　本研究针对药物不良反应(ADR)预测中药物-ADR关联矩阵高度稀疏的难题，提出了一种整合多权重矩阵分解(MF)模型的新型加权伪标记框架(WPLMF)。通过挖掘潜在药物-ADR对作为伪标记数据，结合创新的权重分配策略，在SIDER数据库稀疏数据上实现了0.6553的AUPR和0.6095的F1值，为临床用药安全预警提供了有效工具。

药物不良反应(ADR)是全球公共卫生领域的重要问题，每年导致大量治疗相关死亡和巨额医疗负担。美国FDA数据显示，2022年严重ADR报告占比高达53.86%，死亡率达7.46%。然而，由于临床试验样本量限制，药物上市前难以全面检测ADR，传统实验方法面临巨大挑战。这促使研究人员转向机器学习方法，通过挖掘公共数据库中的药物-ADR关联规律进行预测。

当前ADR预测主要采用矩阵分解(MF)和神经网络(NNs)两类方法。MF通过分解稀疏的药物-ADR关联矩阵获取潜在特征，但面临矩阵稀疏性问题；NNs虽能捕捉复杂非线性关系，却存在负样本选择偏差的固有缺陷。特别是，现有方法将未知药物-ADR对简单归为负样本，忽略了其中可能包含的真实阳性样本，导致预测性能受限。

针对这些关键问题，研究人员开发了基于加权伪标记矩阵分解(WPLMF)的新型预测框架。该研究创新性地将伪标记技术引入MF模型，通过多权重MF模型挖掘潜在药物-ADR对作为伪标记数据，采用创新的权重分配策略平衡伪标记质量与数量，有效缓解了矩阵稀疏性带来的负面影响。

研究采用SIDER和DrugBank数据库数据，构建包含1177种药物和4247种ADR的关联矩阵，稀疏度仅为0.027。关键技术方法包括：(1)基于Node2vec的生物知识图谱嵌入，获取药物特征表示；(2)多MF模型集成挖掘高质量伪标记；(3)受Focal loss和EL2N启发的加权方案，权重计算公式为w_ij=-(α^γln(y_ij′+ε)+(1-α)^γln(1-y_ij′+ε))；(4)五折交叉验证评估体系。

性能分析与比较

在相同实验条件下，WPLMF的AUPR达0.6553，F1-score达0.6095，显著优于FGRMF、idse-HE等基线方法。特别在稀疏场景下，当训练集比例降至60%时仍保持最佳性能，验证了框架的鲁棒性。

质量与数量的权衡

通过调节伪标记筛选阈值(0.8)和惩罚系数α(0.9)，实现了伪标记质量(命中率)与数量的最优平衡。研究表明，高质量伪标记对性能提升贡献更大。

消融研究

移除集成、伪标记或Node2vec任一组件均导致性能下降，证实各模块的不可或缺性。伪标记主要改善了中高频药物-ADR对的预测误差。

案例研究

对SIDER未记录的Top30预测结果进行验证，23组获得文献支持。针对长尾药物和ADR的预测准确率约50%，显著优于随机水平。

该研究证实，加权伪标记能有效解决MF在ADR预测中的矩阵稀疏性问题。创新性体现在：(1)首次将伪标记技术与MF结合；(2)提出针对MF特性的加权方案，避免对高频ADR的过拟合；(3)框架在极端稀疏条件下仍保持优越性能。局限性在于对极低频ADR预测改进有限，未来可通过引入多视图药物特征进行优化。研究成果为药物安全监测提供了新思路，对降低临床用药风险具有重要意义。论文发表于《BMC Bioinformatics》，为ADR预测领域提供了可靠的方法学参考。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号