ADENER：面向社交媒体药物不良事件抽取的语法增强网格标注模型

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Journal of Biomedical Informatics》：ADENER: A syntax-augmented grid-tagging model for Adverse Drug Event extraction in social media

【字体：大中小】 时间：2025年10月23日 来源：Journal of Biomedical Informatics 4.5

编辑推荐：

　　本文提出ADENER模型，通过卷积捕获层实现多维度文本特征融合与长距离词对依赖建模，结合语法仿射层集成路径级依存信息，有效解决社交媒体中药物不良事件（ADE）抽取的语义模糊和结构重叠难题。该模型在CADEC、CADECv2等数据集上F1值最高达77.97%，为药物警戒（pharmacovigilance）研究提供了高效解决方案。

Highlight

传统社交媒体ADE抽取研究将该任务建模为序列标注问题，通过多任务学习和对抗迁移等策略缓解标注数据稀缺问题。然而基于BIO标注的序列标注方法难以有效处理重叠和间断的ADE实体。为解决该问题，通用NER领域提出如Tang等人的BIOHD方法和...

Method

ADENER模型架构如图2所示，包含五个核心组件：（1）编码层采用BERT捕捉社交媒体非规范文本的上下文语义，BiLSTM建模双向序列依赖；（2）卷积捕获层融合词对表征与相对位置嵌入、网格位置特征、词对关联矩阵，并通过空洞卷积优化词对关系；（3）语法仿射层...

Datasets

我们在五个数据集上开展实验。其中CADEC、CADECv2和SMM4H源自社交媒体平台，VACCINE和CPIQP为医疗数据集。我们重点研究社交媒体数据集，并使用VACCINE和CPIQP验证模型对生物医学领域的适应性。需注意CPIQP为中文数据集，其余为英文。表2汇总了整体统计数据，可见CADEC数据集同时包含间断和重叠实体。

Main results

表3展示了本模型与基线方法在三个社交媒体ADE抽取数据集上的对比结果。我们的方法在CADEC、CADECv2和SMM4H数据集上均较所有基线模型取得显著F1值提升，证明了模型有效性。值得注意的是，虽然CADEC、CADECv2和SMM4H均源自社交媒体，但采集自Twitter的SMM4H数据集文本不规则性和噪声更高...

Conclusion

本文提出ADENER，一种基于网格标注的神经网络模型，用于社交媒体ADE抽取。模型通过卷积捕获层对多维度文本特征进行细粒度融合建模，利用空洞卷积精细捕捉不同局部空间中距离依赖的词对关系以降低数据噪声。此外，通过语法仿射层整合全文的路径级语法依存信息...

联系信箱：

粤ICP备09063491号

热点排行