基于RoBERTa-wwm-ext、TF-IDF与注意力机制融合的医疗查询意图分类混合模型研究

《Scientific Reports》:A hybrid model integrating RoBERTa, TF-IDF, and attention mechanism for medical query intent classification

【字体: 时间:2025年11月29日 来源:Scientific Reports 3.9

编辑推荐:

  为解决医疗检索场景中用户查询意图识别准确率不足的问题,研究人员开展了集成RoBERTa-wwm-ext、句子级TF-IDF和类别中心TF-IDF的三分支注意力融合模型研究。实验表明,该模型在KUAKE-QIC数据集上准确率达0.824,Macro-F1达0.800,较基线提升2.3个百分点,为临床问答系统与智能分诊提供了更可靠的语义理解基础。

  
在互联网时代,高达80%的用户曾在线搜索医疗健康信息。然而,医疗查询通常极为简短、语义模糊,且常使用非专业术语描述症状。传统浅层模型(如TF-IDF)难以捕捉上下文语义,而预训练语言模型(如BERT)虽具强大深度语义表征能力,却易忽略关键词权重和类别先验,导致对长尾类别识别准确率不足。针对这些挑战,梁泽建、赵云翔等研究人员在《Scientific Reports》发表论文,提出一种融合RoBERTa-wwm-ext、句子级TF-IDF和类别中心TF-IDF的三分支注意力混合模型,显著提升了医疗查询意图分类的精度与鲁棒性。
本研究采用RoBERTa-wwm-ext作为语义编码器,结合句子级TF-IDF捕捉关键词显著性,以及类别中心TF-IDF注入全局类别先验,通过注意力机制动态加权融合三类特征。模型在KUAKE-QIC数据集(包含6,931训练样本和1,955验证样本,覆盖11类医疗意图)上进行评估,使用准确率(Accuracy)、宏平均F1(Macro-F1)等指标量化性能。
模型框架
模型包含特征生成层、特征融合层和分类决策层。RoBERTa-wwm-ext分支生成上下文语义向量;句子级TF-IDF分支突出查询内关键词;类别中心TF-IDF分支编码训练集统计先验。注意力模块通过可学习参数动态加权各分支贡献,避免静态拼接导致的信息稀释。分类层通过全连接网络将融合特征映射至11维意图概率分布。
RoBERTa-based Semantic Encoder
研究选用RoBERTa-wwm-ext而非BERT-base-Chinese,因其采用全词掩码(Whole-Word Masking)和动态掩码策略,更适配中文医疗复合词建模。预训练语料涵盖百科、新闻、问答等5.4GB数据,增强对口语化症状表达的适应性。
TF-IDF Features Extraction
句子级TF-IDF保留200个最具信息量的特征词,通过χ2评分降噪。类别中心TF-IDF基于训练集真实标签计算每类原型向量,推理时采用软原型融合(soft-prototype inference)避免标签泄漏。两类特征均投影至768维,与RoBERTa输出维度对齐。
实验结果与分析
在KUAKE-QIC上,完整模型准确率达0.824,Macro-F1为0.800,较RoBERTa基线提升2.3个百分点。消融实验表明,移除类别中心分支(Macro-F1降至0.789)或句子级TF-IDF分支(降至0.786)均导致性能下降,验证浅层特征的互补性。注意力机制替代简单拼接带来1.4个百分点的Macro-F1增益。超参数调优显示,最大输入长度256、TF-IDF特征数200时模型最优。
错误分析
模型在样本量大、语义结构清晰的类别(如“治疗方法”“诊断”)表现优异(F1>0.90),但语义模糊或情感丰富的类别(如“预后结果”“其他”)仍易混淆。少数类别(如“疗效”“病因”)凭借TF-IDF先验维持较高F1(0.79),证明浅层特征对长尾类的强化作用。
讨论与结论
该研究通过深度-浅层特征注意力融合,实现了医疗短查询意图分类的精度与鲁棒性平衡。类别中心TF-IDF为先验锚点,有效缓解类别不平衡;动态加权机制适配不同查询特性。未来可引入医疗知识图谱(如UMLS)进一步消歧,或扩展至对话式医疗场景。该工作为临床问答、医疗搜索排序等应用提供了可部署、高效率的意图识别框架。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号