
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于对比学习与提示学习的医疗信息抽取模型研究:语义引导的少样本医学实体识别新范式
【字体: 大 中 小 】 时间:2025年05月30日 来源:Computers in Biology and Medicine 7.0
编辑推荐:
针对医疗信息抽取任务中语义潜力挖掘不足和标注数据依赖性强的问题,研究人员提出融合对比学习(Contrastive Learning)与提示学习(Prompt Learning)的双阶段训练模型。通过将医疗文本与标签语义空间对齐,在CCKS2019和CMeEE数据集上分别实现88.29和90.68的F1值,较基线提升4.07-4.95个点,为少样本医疗NER任务提供新思路。
在医疗智能化浪潮中,临床文本的结构化处理犹如"数据矿藏"的精炼厂,其中医疗命名实体识别(NER)技术承担着核心提炼工作。尽管BiLSTM-CRF和BERT-CRF等深度学习模型已成为当前主流,但现有方法面临两大瓶颈:一方面,医疗标签的丰富语义信息未被充分挖掘;另一方面,模型性能严重依赖大量标注数据,而医疗领域标注成本高昂。这种矛盾在中文医疗场景中尤为突出,例如电子病历中"糖尿病肾病"与"糖尿病"的实体层级区分,传统方法需要数千例标注才能达到理想效果。
针对这一挑战,国内某研究机构创新性地将对比学习与提示学习引入医疗NER领域,提出双阶段训练框架。研究团队以生物医学预训练模型BioBERT为基础,第一阶段通过对比损失机制(Contrastive Loss)将医疗文本表征与标签描述投影到统一语义空间,第二阶段冻结底层参数仅训练标记层。这种设计巧妙实现了三大突破:首次将标签语义作为提示(Prompt)指导模型训练;通过对比学习增强相似医学术语的区分度;显著降低对标注数据的依赖。实验表明,在CCKS2019和CMeEE基准测试中,该方法F1值分别达到88.29和90.68,较传统BioBERT+CRF基线提升4.07-4.95个点。更值得注意的是,在仅使用20%标注数据时,性能衰减幅度比基线模型低32%,证实其在少样本场景的优越性。该成果已发表在《Computers in Biology and Medicine》,为医疗NLP领域提供了新范式。
关键技术包括:1)基于BioBERT的语义空间对齐技术;2)标签描述编码的提示学习框架;3)正负样本对的对比损失计算;4)两阶段训练策略(表征调优+标记层训练)。实验使用CCKS2019(中文临床术语抽取)和CMeEE(中文医学实体识别)两个公开数据集验证。
【Medical information extraction】
研究揭示现有深度学习方法存在语义利用不充分问题。通过分析BiLSTM-CRF和BERT-CRF模型发现,这些方法仅利用标签作为分类标识,未挖掘其描述性语义。例如"心肌梗死"标签包含"心脏组织缺血坏死"的潜在语义,传统方法未能有效捕获这种关联。
【Methodology】
提出的双阶段框架创新性地将标签描述编码为语义向量。在对比学习阶段,模型学习缩短"心绞痛"文本与其标签描述的向量距离,同时扩大与"胃炎"标签的距离。可视化分析显示,经过对比训练后,相关医学术语在向量空间中形成清晰聚类。
【Research questions】
消融实验证实:1)加入提示学习的模型在罕见病实体识别准确率提升19.8%;2)对比训练使相似症状(如"头痛"与"偏头痛")的区分度提高27%;3)在10%数据量的极端情况下,模型性能仍保持基线水平的83%。
【Discussion】
与Guan等提出的CMeIE方法相比,新方法在复合实体(如"Ⅱ型糖尿病伴酮症酸中毒")识别上F1值提高6.2%。错误分析表明,模型在药品剂量(如"500mg/d")识别方面仍有提升空间。
【Conclusion】
该研究开创性地构建了医疗标签语义与文本表征的联合学习框架。实际应用中,医院可利用少量标注病历快速构建NER系统,例如将"阿司匹林"的化学结构与抗血小板作用语义融入模型,显著提升药品实体识别效果。未来可扩展至医疗关系抽取和知识图谱构建,推动智慧医疗发展。
这项工作的核心价值在于:1)首次实现医疗标签语义的量化利用;2)建立可迁移的少样本医疗NLP方法论;3)为其他垂直领域(如法律、金融)的NER任务提供借鉴。正如研究者指出,当技术能够"理解"而不仅是"识别"医疗概念时,真正的医疗人工智能时代即将到来。
生物通微信公众号
知名企业招聘