基于语义交叉注意力Transformer(SCAT)的多模态生物医学数据药物相互作用预测研究

【字体: 时间:2025年06月11日 来源:BMC Bioinformatics 2.9

编辑推荐:

  本研究针对药物相互作用(DDI)预测中多模态生物医学数据存在的不规则、不平衡及标注困难等问题,开发了语义交叉注意力Transformer(SCAT)模型。该模型整合BioBERT、Doc2Vec和GCN嵌入技术,通过BiGRU捕获上下文依赖关系,利用交叉注意力机制融合多模态特征,在DDIExtraction-2013数据集上超越现有方法,为药物监管系统预测新型DDI事件提供了创新工具。

  

药物相互作用预测的困境与突破
随着复合制剂市场的扩张和联合用药(DCT)的普及,药物相互作用(DDI)引发的严重不良反应(ADR)成为公共卫生重大挑战。统计显示,同时服用6-10种药物时ADR发生率达7%,而10-20种药物联用则超过40%。传统实验方法成本高、耗时长,导致已知DDI数量远低于潜在风险。多模态生物医学数据(如药物分子图、靶点、酶通路)虽能提供互补信息,但存在数据异构、标注噪声等问题,亟需智能算法实现精准预测。

西安电子科技大学与天津科技大学的研究团队在《BMC Bioinformatics》发表研究,提出语义交叉注意力Transformer(SCAT)模型。该工作通过融合药物句子、描述文本和分子图数据,采用BioBERT、Doc2Vec和Graph2Vec分别嵌入三类特征,利用双向门控循环单元(BiGRU)提取局部-全局上下文特征,创新性地引入交叉注意力机制显式建模特征间依赖关系,最终通过特征联合分类器实现DDI预测(DDIP)。实验表明SCAT在DDIExtraction-2013数据集上F1值达75.31%,较对比模型提升3-8%。

关键技术方法
研究采用DDIExtraction-2013数据集,包含药物句子、描述文本和SMILES分子图。通过BioBERT嵌入生物医学文本(保留最后4层平均输出),Doc2Vec转化药物描述文档,Graph2Vec编码分子图为向量。特征拼接后经BiGRU提取时序特征,交叉注意力层计算药物对间多头部注意力权重(头维度32),最终通过最大池化和Softmax分类器预测DDI类型。模型采用Adam优化器,设置学习率0.001、dropout率0.01,经3000次迭代优化。

研究结果
多模态数据嵌入与拼接
BioBERT生成的400维词向量与200维药物描述向量、100维分子图向量拼接,形成综合特征表示。消融实验显示三模态融合使准确率提升5.32%,训练时间增加28%。

特征提取
3层BiGRU有效捕获双向上下文依赖,其隐藏层输出维度实验确定为400。移除该模块导致准确率骤降29.29%,证实其对局部-全局特征提取的关键作用。

交叉注意力机制
通过计算药物对间查询-键值矩阵的软注意力权重,该模块显著提升小样本类别(如Int类型)识别率12.1%。注意力可视化显示分子子结构与文本描述的协同贡献模式。

DDIP性能验证
在四类数据集测试中,SCAT均表现最优:原始数据集F1值75.29%,过滤后达74.79%。对比实验中,SCAT超越DrugDAGT和GMIA等模型,尤其在机制类DDI预测上准确率提高3.36%。

结论与意义
该研究首次将交叉注意力机制引入多模态DDI预测,突破传统模型对特征交互建模的局限性。SCAT的创新性体现在:1) 通过BiGRU与交叉注意力的级联设计,同时捕获序列局部特征和全局依赖;2) 利用多模态数据互补性缓解样本不平衡问题;3) 为药物监管提供可解释的预测框架,如注意力权重可追溯关键分子子结构。未来工作可扩展至药物-疾病相互作用预测,并整合更多模态数据(如蛋白质互作网络)以进一步提升性能。这项成果标志着人工智能在药物安全监测领域的重要进展,为个性化用药决策提供新范式。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号