基于层次化特征建模与数据增强的注意力焦点损失药物相互作用提取框架HiFAB-DDI

【字体: 时间:2025年06月26日 来源:Biomedical Signal Processing and Control 4.9

编辑推荐:

  为解决药物相互作用(DDI)提取中复杂文本结构和数据不平衡问题,河北教育部门等机构联合开发了集成BioGPT数据增强和注意力焦点损失的HiFAB-DDI框架。该研究通过CNN-Transformer混合架构实现局部-全局特征建模,在DDI Extraction 2013数据集上取得84.78%的F1值,为临床用药安全提供新范式。

  

在药物研发和临床用药领域,药物相互作用(Drug-Drug Interaction, DDI)的准确识别直接关系到患者生命安全。据统计,约20%的药物不良反应由DDI引发,每年造成巨额医疗支出。尽管PubMed、DrugBank等生物医学数据库收录了海量文献,但传统基于规则和浅层机器学习的方法难以应对两大核心挑战:一是生物医学文本特有的复杂句法结构(如嵌套实体和多跳关系),二是标注数据中正负样本比例严重失衡(非相互作用样本占比超90%)。现有BERT、BioBERT等预训练模型虽提升了语义表征能力,但对局部语法特征的捕捉不足,且缺乏针对稀有DDI类别的优化策略。

中国刑事警察学院、同济大学附属东方医院等机构的研究团队在《Biomedical Signal Processing and Control》发表研究,提出HiFAB-DDI创新框架。该工作融合三大核心技术:1)基于BioGPT的领域自适应数据增强,生成符合生物医学语境的合成样本;2)CNN与Transformer的层次化架构,CNN层捕获词级n-gram特征,Transformer层建模文档级依赖;3)注意力增强的焦点损失函数,通过动态权重调整缓解类别不平衡。实验采用DDI Extraction 2013基准数据集,通过五折交叉验证评估性能。

数据增强模块
利用开源的BioGPT-1.6B模型,对原始训练集中少于50例的稀有DDI类别进行上下文感知的文本生成。通过温度采样(temperature=0.7)和核采样(top-p=0.9)控制生成多样性,最终扩充数据集规模达原始数据的1.8倍。人工评估表明合成样本的语义一致性达92.3%。

层次化特征建模
输入层采用BioClinicalBERT获取768维词向量,后续并行连接:1)3层空洞卷积网络(DCNN),卷积核尺寸3/5/7,扩张率(dilation rate)2n递增,捕获多尺度局部模式;2)4层Transformer编码器,头数h=12,前馈网络维度2048。特征融合阶段引入门控注意力机制,计算CNN与Transformer输出的动态权重。

损失函数设计
在标准焦点损失基础上引入类别注意力因子αc=(1-Pc)γ,其中Pc为类别c的预测概率,γ=2为调节参数。对样本数最少的"抑制"类(DDI类型4),α值提升至基准的3.2倍。

实验结果
在测试集上达到精确率85.21%、召回率84.35%、F1值84.78%,较最优基线模型提升4.62个百分点。消融实验显示:移除BioGPT增强使稀有类别F1下降11.4%;单独使用CNN或Transformer导致全局/局部特征捕获失衡;标准交叉熵损失造成"组合"类(DDI类型2)召回率降低19.8%。

讨论与展望
该研究的临床价值体现在三方面:1)BioGPT增强策略可推广至其他低资源医学NLP任务;2)门控注意力机制为多模态医学数据融合提供参考;3) 动态损失加权方案适用于电子健康记录(EHR)中的罕见病识别。局限性在于对跨语种DDI文本的泛化能力有待验证,未来计划整合知识图谱增强推理能力。研究获国家自然科学基金(82160591)等资助,代码已在GitHub开源。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号