基于多源相似性融合的深度学习模型MSSF精准预测药物副作用频率等级

【字体: 时间:2025年05月28日 来源:Bioinformatics 4.4

编辑推荐:

  本研究针对药物副作用频率预测中回归模型易过拟合、边界模糊等问题,开发了基于多源相似性融合的深度学习模型MSSF。该模型通过整合11种药物相似性矩阵和4种副作用相似性矩阵,结合自注意力机制和贝叶斯变分推断(BVI),将频率预测重构为多分类任务。实验表明,MSSF在交叉验证、冷启动和独立测试中均显著优于现有方法(ACC提升15.9%),可视化分析与案例研究验证了其可靠的特征提取能力,为临床用药安全评估和药物研发风险控制提供了新工具。

  

药物在治病救人的同时,常常伴随着令人头疼的副作用。从常见的头晕恶心到严重的肝肾功能损伤,这些意外反应不仅影响患者生活质量,还可能导致药物退市——据统计,药物安全问题造成的经济损失每年高达数十亿美元。传统临床试验耗时耗力,而现有计算方法大多将副作用频率预测视为回归问题,导致分类边界模糊和过拟合风险。更棘手的是,新药研发中的"冷启动"问题让预测雪上加霜。

中南大学的研究团队在《Bioinformatics》发表的研究中,提出了革命性的解决方案MSSF模型。这个深度学习框架首次将频率预测重构为五分类任务(非常罕见至非常常见),通过融合多源生物医学数据,实现了副作用频率等级的精准预测。研究收集了来自STITCH、DrugBank等数据库的11种药物相似性矩阵(如SMDTarget靶点相似性、SMDStructure结构相似性)和4种副作用相似性矩阵(如SMESemantic语义相似性),构建了包含757种药物和994种副作用的基准数据集。

关键技术包括:1)多模态特征提取模块(EN-con串联编码器、EN-add加法编码器和CNN-im交互图卷积);2)自注意力机制融合特征;3)贝叶斯变分推断(Bayesian Variational Inference)模块处理不确定性;4)采用十折交叉验证和独立测试集(含169种新药)评估性能。

特征提取与融合
通过三种创新方式处理特征:将药物与副作用特征向量串联(维度1751)、元素相加(维度1751)以及构建44个交互图(11×4),分别输入三个特征提取模块。其中EN-con采用带自注意力机制的编码器,其注意力权重计算如公式(1)所示,有效捕捉关键特征。

不确定性建模
BVI模块通过公式(5)的重新参数化技巧,从融合特征中采样潜在向量Fl,既防止过拟合又量化预测不确定性。这是首个在副作用预测中引入概率建模的研究。

性能验证
在十折交叉验证中,MSSF以72.46%的准确率碾压现有最佳模型HMMF(15.9%提升),Kappa系数达0.5847。更惊人的是在冷启动实验中,对全新药物的预测准确率仍保持56.01%,比次优模型提高13.19%。独立测试进一步验证其泛化能力(AUPR 0.3897)。

机制解析
t-SNE可视化显示,随着训练进行,不同频率类别的特征向量逐渐分离(图2)。案例研究证实,模型对氟哌啶醇(haloperidol)等药物预测的副作用中,80%-100%经外部数据库验证。

这项研究颠覆了传统副作用预测范式,其创新性体现在三方面:首先,多分类框架更契合临床使用的离散频率等级;其次,多源特征融合策略(如SMDPathway-enzyme通路酶相似性)全面捕捉药物-副作用关联;最后,BVI模块使模型具备不确定性量化能力。尽管当前数据稀疏性仍是挑战,但该工作为AI驱动的药物安全评估树立了新标杆,未来结合基因表达等多组学数据有望进一步突破预测瓶颈。

研究团队开源了所有代码,医药企业可据此评估新药风险,临床医生能更精准权衡用药利弊——这或许意味着,AI守护下的个性化用药时代正在加速到来。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号