基于多任务学习的印尼语消费者健康论坛句子识别、医疗实体识别与关键词抽取研究

【字体: 时间:2025年05月07日 来源:Journal of Biomedical Semantics 1.6

编辑推荐:

  针对印尼语消费者健康论坛中医疗信息提取效率低下的问题,Tsaqif Naufal等研究人员通过多任务学习(MTL)框架,整合句子识别(SR)、医疗实体识别(MER)和关键词抽取(KE)任务,构建了包含1,173条标注数据集的基线模型。研究发现,任务间信息共享显著提升MER和KE性能(F1-score分别达64.83%和49.76%),为东南亚地区医疗问答系统开发提供了重要技术支撑。

  

在互联网医疗蓬勃发展的今天,印尼语用户通过在线健康论坛寻求医疗建议的需求日益增长。然而这些论坛面临两大痛点:专业医生资源稀缺导致响应延迟,以及用户提问常存在语法不规范、信息冗余等问题。传统解决方案依赖人工处理,效率低下且难以规模化。更棘手的是,印尼语医疗自然语言处理(NLP)研究长期受限于小规模数据集(早期SR数据仅192条)和传统模型(如CRF和LSTM)的性能瓶颈。

为解决这些问题,印度尼西亚大学计算机科学学院的研究团队开展了一项创新研究。他们首次构建了包含1,173条标注数据的印尼语医疗文本数据集,覆盖句子识别(SR)、医疗实体识别(MER)和关键词抽取(KE)三大任务。通过系统比较9种Transformer编码器和多任务学习架构,发现IndoNLULARGE模型在MER任务中达到59.59%的F1-score,而分层式多任务学习(Hierarchical MTL)使KE性能提升至49.76%。这项发表于《Journal of Biomedical Semantics》的研究,为资源稀缺语言的医疗NLP提供了可复用的技术框架。

关键技术方法包括:1)采用Label Studio工具进行两阶段标注(400条双人标注+773条单人标注),通过F1-score和Cohen's Kappa评估标注一致性;2)使用BIO序列标注格式处理SR(背景/问题/忽略三类)、MER(疾病/症状/药物/治疗四类)和KE任务;3)对比CRF基线与9种Transformer模型(含IndoBERT、XLM-R等);4)设计并行/分层多任务学习架构,通过加权损失函数(公式8、14)优化任务协同。

研究结果方面:
数据标注:最终标注数据达成SR(88.61%)、MER(64.83%)、KE(35.01%)的组间一致性,统计分析显示含医疗实体的句子更可能属于背景或问题类型(p<0.05)。

基线模型:所有Transformer模型均显著优于CRF基线(KE任务提升127%),但模型性能呈现任务依赖性——XLM-RBASE在SR任务表现最佳(93.70%),而IndoLEMBASE在KE任务领先(47.48%)。

多任务学习:分层式MER-KE组合使KE的F1-score提升6.1%(达49.76%),错误分析显示67.63%的MER错误源于实体边界识别偏差(表10)。三任务联合学习虽未超越最佳双任务组合,但Parallel Three-way模型在KE任务实现51.28%的F1-score。

这项研究的突破性在于:首次建立了印尼语医疗文本处理的基准体系,证实了多任务学习在低资源语言医疗NLP中的有效性。特别是发现医疗实体与关键词的协同学习能显著提升性能,这对开发东南亚地区双语医疗问答系统具有重要实践价值。研究者公开了数据集和代码,为后续研究提供了宝贵资源。未来工作可探索生成式大语言模型(LLM)与序列标注模型的融合,以进一步提升罕见医疗实体的识别能力。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号