基于预训练深度学习嵌入的DDI风险等级不平衡数据集解决方案:DDintensity模型研究

【字体: 时间:2025年07月02日 来源:Artificial Intelligence in Medicine 6.1

编辑推荐:

  推荐:本研究针对生物信息学中药物-药物相互作用(DDI)风险等级数据集不平衡问题,创新性提出DDintensity模型。通过整合多领域预训练模型(如BioGPT)嵌入特征与LSTM-attention架构,在DDinter和MecDDI数据集上实现AUC 0.97/AUPR 0.92的优异性能,为临床DDI风险分级提供免人工负采样、保留生物学完整性的新范式。

  

在临床实践中,药物-药物相互作用(Drug-Drug Interaction, DDI)可能导致严重的治疗失败甚至患者死亡。随着新药研发加速,传统实验方法因成本高昂难以全面评估DDI风险,而现有计算方法普遍面临数据集不平衡、随机负采样引入噪声等问题。更棘手的是,多数模型仅预测DDI是否存在,却忽视了对风险等级(如重大、中度、轻微)的区分——这正是临床决策最关键的维度。

针对这些挑战,来自香港城市大学深圳研究院等机构的研究团队在《Artificial Intelligence in Medicine》发表研究,提出名为DDintensity的创新解决方案。该研究突破性地采用跨模态预训练模型生成药物嵌入,结合注意力机制长短期记忆网络(bi-LSTM-attention),直接在原始不平衡数据上建模风险等级,避免了传统随机采样方法的局限性。

关键技术包括:1) 从DDinter和MecDDI数据库构建风险等级标注数据集;2) 测试图像(如ResNet)、图结构(如GNN)及文本(如BioGPT、SapBERT)等多领域预训练模型的嵌入特征;3) 设计双向LSTM结合注意力机制的分类架构;4) 通过化疗药物案例(如索拉非尼DB00398、米托蒽醌DB01204)验证临床相关性。

【Overall workflow】
研究构建了包含"重大"(阳性)与其他等级(阴性)的不平衡数据集,将药物对嵌入拼接后输入bi-LSTM-attention模型。相比传统SMILES或图神经网络(GNN)特征,预训练模型嵌入能更全面捕捉药物特性,特别是生物医学语言模型BioGPT的表现最优。

【Results】
在风险等级预测任务中,BioGPT嵌入以AUC 0.97/AUPR 0.92显著优于其他特征。消融实验证实注意力机制对性能提升贡献率达18%。模型在小型DDI2013和大型DrugBank数据集上均保持稳健,验证了跨规模适用性。

【Parametrical analysis】
通过五折交叉验证发现,训练周期达200时性能进入平台期(AUC波动<0.5%)。嵌入维度分析显示,1024维特征在计算效率与信息量间达到最佳平衡。

【Conclusions】
该研究首次系统评估了CV/NLP/网络多模态嵌入在DDI风险预测中的表现,证实生物医学语料预训练的语言模型最具优势。DDintensity的创新性体现在三方面:1) 突破分子结构局限,整合多模态特征;2) 直接建模风险等级而非二元关系;3) 保持数据生物学完整性,避免随机采样偏差。

这项研究为DDI预测领域提供了新范式,其免人工负采样的设计尤其适合真实世界数据场景。未来通过引入多模态融合和动态嵌入更新,有望进一步拓展在药物重定位和联合疗法优化中的应用。研究获得国家自然科学基金(32170654)及香港研资局(CityU 11203723)等支持,相关代码与数据已开源。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号