
-
生物通官微
陪你抓住生命科技
跳动的脉搏
针对中医领域命名实体识别的知识蒸馏技术
《Scientific Reports》:Knowledge distillation for named entity recognition in traditional chinese medicine
【字体: 大 中 小 】 时间:2026年06月10日 来源:Scientific Reports 3.9
编辑推荐:
摘要在中医(TCM)文本中,命名实体识别(NER)对于构建中医知识体系及其智能化应用至关重要。中医病例文本的特点是实体分布稀疏且领域特定数据有限。现有方法在识别低频实体方面存在困难,且在知识迁移方面能力不足。本文提出了一种结合结构化知识蒸馏的中医NER框架。首先,利用自然语言处理
在中医(TCM)文本中,命名实体识别(NER)对于构建中医知识体系及其智能化应用至关重要。中医病例文本的特点是实体分布稀疏且领域特定数据有限。现有方法在识别低频实体方面存在困难,且在知识迁移方面能力不足。本文提出了一种结合结构化知识蒸馏的中医NER框架。首先,利用自然语言处理技术构建了多源中医语料库。在高质量的结构化数据上训练出一个教师模型,并通过软标签将其语义知识传递给学生模型。学生模型采用BERT进行编码,BiLSTM进行序列特征提取,Transformer进行全局上下文建模,CRF进行结构化序列解码。在构建的StudentDataset上的实验结果表明,经过知识蒸馏后的TBTC模型相比未蒸馏模型,精确度提高了8.01个百分点,召回率提高了5.31个百分点,F1分数提高了6.67个百分点,整体F1分数达到了77.01。