MultiFG:基于多指纹与图嵌入注意力机制的药物副作用频率预测新方法

【字体: 时间:2025年07月05日 来源:Scientific Reports 3.8

编辑推荐:

  推荐:研究人员针对药物副作用频率预测的高成本与现有模型泛化性不足的问题,开发了MultiFG深度学习框架。该模型整合分子指纹、图嵌入和相似性特征,采用注意力增强卷积网络与Kolmogorov-Arnold Networks(KAN)预测层,在已上市药物副作用预测中AUC达0.929,频率预测RMSE为0.631,较现有最优模型提升显著,为药物安全评估提供新工具。

  

药物副作用是药物研发和临床应用中的重大挑战。据统计,90%的候选药物因副作用被淘汰,即使已上市药物也可能因严重副作用撤市。传统依赖临床试验的方法存在成本高、周期长、样本代表性不足等问题,而现有计算模型多局限于特定副作用类型或缺乏频率信息,难以满足风险-获益评估需求。

针对这一难题,重庆医科大学公共卫生学院的研究团队在《Scientific Reports》发表了题为"MultiFG: integrating molecular fingerprints and graph embeddings via attention mechanisms for robust drug side effect prediction"的研究。该工作提出了一种融合多模态特征的深度学习框架,通过整合分子结构信息与统计分布规律,实现了药物副作用关联性及发生频率的高精度预测。

研究采用四项关键技术:

  1. 多源分子表征:整合MACCS(结构指纹)、Morgan(圆形指纹)、RDKIT(拓扑指纹)和ErG(2D药效团指纹)四种分子指纹,结合预训练图同构网络(GIN)提取的分子图嵌入特征;
  2. 自包含相似性计算:基于训练集药物/副作用分布,计算Jaccard相似性(二元特征)和余弦相似性(连续特征);
  3. 注意力特征融合:采用CNN提取药物局部结构特征,通过多头注意力机制捕捉药物-副作用交互特征;
  4. 混合预测架构:使用MLP预测副作用关联性,创新性采用KAN网络预测频率等级(1-5级)。

研究结果:

  1. 模型性能验证
    在包含743种药物和994种副作用的基准数据集上,MultiFG在CV10验证中达到AUC 0.929±0.002,较先前最优模型(DSGAT)提升0.7%;频率预测RMSE 0.631±0.011,接近最佳性能的IGMC模型(0.618)。特别在冷启动场景(Cold_CV10)下,对全新药物的副作用预测NDCG@10达0.826,显示优异泛化能力。

  2. 特征重要性分析
    如图2所示,药物相似度与共享副作用数量呈正相关(r=0.739),证实结构相似性可作为预测依据。多组学特征中,图嵌入特征对频率预测贡献最大(ΔSpearman=0.15),而指纹特征对关联性预测更关键(ΔAUC=0.12)。

  3. 案例验证
    以训练集外的胃复安(metoclopramide)为例,模型预测的74种副作用中63种(85.1%)获文献证实,主要分布于胃肠系统(11/12正确)和神经系统(9/9正确),但感染类副作用存在过预测现象。

讨论与意义:
该研究突破了现有模型依赖外部生物医学知识库的局限,仅需药物SMILES编码即可实现预测,极大提升了新药研发早期的适用性。创新性地将KAN网络引入频率预测任务,通过样条函数拟合复杂非线性关系,较传统MLP降低MAE达0.293。

局限在于当前模型未考虑药物-药物相互作用(DDI)导致的复合副作用,未来可通过整合蛋白质互作网络或临床表型数据进一步优化。研究者建议拓展三方面工作:(1)引入真实世界临床表型数据;(2)利用生物医学文献预训练语言模型;(3)整合蛋白质翻译后修饰(PTM)位点特征,从分子机制层面提升模型解释性。

这项研究为药物安全评估提供了可解释性强、适用范围广的计算工具,其开源代码已托管于GitHub平台,将助力降低药物研发成本并提升患者用药安全性。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号