
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于矩阵分解加权伪标记框架的药物不良反应预测新方法研究
【字体: 大 中 小 】 时间:2025年02月18日 来源:BMC Bioinformatics 2.9
编辑推荐:
本研究针对药物不良反应(ADR)预测中药物-ADR关联矩阵高度稀疏的难题,提出了一种整合多权重矩阵分解(MF)模型的新型加权伪标记框架(WPLMF)。通过挖掘潜在药物-ADR对作为伪标记数据,结合创新的权重分配策略,在SIDER数据库稀疏数据上实现了0.6553的AUPR和0.6095的F1值,为临床用药安全预警提供了有效工具。
药物不良反应(ADR)是全球公共卫生领域的重要问题,每年导致大量治疗相关死亡和巨额医疗负担。美国FDA数据显示,2022年严重ADR报告占比高达53.86%,死亡率达7.46%。然而,由于临床试验样本量限制,药物上市前难以全面检测ADR,传统实验方法面临巨大挑战。这促使研究人员转向机器学习方法,通过挖掘公共数据库中的药物-ADR关联规律进行预测。
当前ADR预测主要采用矩阵分解(MF)和神经网络(NNs)两类方法。MF通过分解稀疏的药物-ADR关联矩阵获取潜在特征,但面临矩阵稀疏性问题;NNs虽能捕捉复杂非线性关系,却存在负样本选择偏差的固有缺陷。特别是,现有方法将未知药物-ADR对简单归为负样本,忽略了其中可能包含的真实阳性样本,导致预测性能受限。
针对这些关键问题,研究人员开发了基于加权伪标记矩阵分解(WPLMF)的新型预测框架。该研究创新性地将伪标记技术引入MF模型,通过多权重MF模型挖掘潜在药物-ADR对作为伪标记数据,采用创新的权重分配策略平衡伪标记质量与数量,有效缓解了矩阵稀疏性带来的负面影响。
研究采用SIDER和DrugBank数据库数据,构建包含1177种药物和4247种ADR的关联矩阵,稀疏度仅为0.027。关键技术方法包括:(1)基于Node2vec的生物知识图谱嵌入,获取药物特征表示;(2)多MF模型集成挖掘高质量伪标记;(3)受Focal loss和EL2N启发的加权方案,权重计算公式为wij=-(αγln(yij′+ε)+(1-α)γln(1-yij′+ε));(4)五折交叉验证评估体系。
性能分析与比较
在相同实验条件下,WPLMF的AUPR达0.6553,F1-score达0.6095,显著优于FGRMF、idse-HE等基线方法。特别在稀疏场景下,当训练集比例降至60%时仍保持最佳性能,验证了框架的鲁棒性。
质量与数量的权衡
通过调节伪标记筛选阈值(0.8)和惩罚系数α(0.9),实现了伪标记质量(命中率)与数量的最优平衡。研究表明,高质量伪标记对性能提升贡献更大。
消融研究
移除集成、伪标记或Node2vec任一组件均导致性能下降,证实各模块的不可或缺性。伪标记主要改善了中高频药物-ADR对的预测误差。
案例研究
对SIDER未记录的Top30预测结果进行验证,23组获得文献支持。针对长尾药物和ADR的预测准确率约50%,显著优于随机水平。
该研究证实,加权伪标记能有效解决MF在ADR预测中的矩阵稀疏性问题。创新性体现在:(1)首次将伪标记技术与MF结合;(2)提出针对MF特性的加权方案,避免对高频ADR的过拟合;(3)框架在极端稀疏条件下仍保持优越性能。局限性在于对极低频ADR预测改进有限,未来可通过引入多视图药物特征进行优化。研究成果为药物安全监测提供了新思路,对降低临床用药风险具有重要意义。论文发表于《BMC Bioinformatics》,为ADR预测领域提供了可靠的方法学参考。
生物通微信公众号
知名企业招聘