基于大语言模型数据增强与多尺度特征提取的少样本生物医学命名实体识别研究

【字体: 时间:2025年04月05日 来源:BioData Mining 4

编辑推荐:

  编辑推荐:针对生物医学命名实体识别(NER)任务中标注数据稀缺问题,研究团队创新性地采用ChatGPT进行数据增强(DA),结合动态卷积(Dconv)和PubMedBERT构建多尺度特征提取模型。在BC5CDR-Disease等四个数据集上,5-shot场景F1值最高提升20%,显著超越现有方法,为低资源场景下的生物医学文本挖掘提供了新范式。

  在生物医学领域,命名实体识别(NER)犹如给文本"装上显微镜",帮助研究者从海量文献中精准定位疾病、基因等关键信息。然而这个"显微镜"需要大量标注数据来校准——这正是当前最大的痛点。专业标注不仅耗时费力,涉及隐私的临床数据更难以公开获取。传统方法在少样本(FSL)场景下表现欠佳:随机替换的数据增强(DA)会扭曲语义,而基于BERT的模型又难以捕捉局部特征。这些瓶颈严重制约着罕见病研究和药物发现等关键领域的发展。

大连民族大学联合大连理工大学的研究团队在《BioData Mining》发表的研究,开创性地将ChatGPT与动态卷积技术结合,构建了少样本生物医学NER新框架。研究采用五步法:1)通过ChatGPT生成语义一致的增强数据;2)使用PubMedBERT编码;3)设计多尺度(BiLSTM)特征提取模块;4)引入动态卷积捕捉局部模式;5)采用门控机制融合特征。在NCBI等四个基准数据集上的实验表明,该方法在5-shot场景下F1值最高提升20%,尤其在BC5CDR-Disease数据集上较KGPC模型提升10.2%。

数据增强方面,研究设计了"原句+保持语义改写"的提示模板,通过五轮生成实现数据量五倍扩展。与UMLS知识图谱增强相比,ChatGPT生成的数据在NCBI数据集上带来6.9%的F1值提升。特征提取模块的创新体现在三层次:首先,将PubMedBERT输出的768维特征按3/5/7不同尺度分割;其次采用BiLSTM提取各尺度特征;最后通过动态卷积(核尺寸5,padding 2)强化局部模式识别。消融实验显示,移除多尺度特征会使5-shot性能骤降30.8%。

模型架构的精华在于特征融合策略。通过线性层将全局特征E与局部特征H拼接后,采用注意力机制计算权重分布,再通过门控单元动态调节动态卷积特征D的贡献。可视化分析显示,完整模型的t-SNE图中实体标记(红色三角)呈现更紧密的聚类。在预训练模型对比中,PubMedBERT凭借专业语料优势,F1值较BioBERT再提升3-5%。

该研究突破了少样本生物医学NER的两大技术壁垒:通过LLM生成高质量数据解决了语义失真问题,借助多尺度动态卷积弥补了Transformer的局部特征提取缺陷。方法在BC5CDR-Disease数据集50-shot场景达78.2% F1值,较传统方法提升15.2%。未来可扩展至零样本场景,结合自修正框架进一步提升LLM输出质量。这项工作不仅为生物医学文本挖掘提供了新工具,其"生成-增强-多尺度学习"的技术路线对其它低资源NLP任务也具有重要借鉴意义。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号