基于RoBERTa与GPT-4的ICD-10编码辅助系统开发:术语提取与描述驱动代码选择的创新研究

【字体: 时间:2025年06月06日 来源:JMIR Formative Research 2.0

编辑推荐:

  为解决ICD-10编码自动化中人工精度不足与模型可解释性差的问题,研究人员开发了结合RoBERTa(术语提取)与GPT-4(描述生成)的检索增强生成(RAG)系统。研究创建了CodiEsp-X-lead数据集,实现术语提取F1 -score达0.80,但RAG阶段表现受限(F1 -score=0.305),为医疗编码AI化提供了流程优化新思路。

  

医疗编码是医院管理的核心环节,但手动分配国际疾病分类第十版(ICD-10)代码耗时且易错。尽管人工智能(AI)在自动化编码领域展现出潜力,现有系统仍面临两大难题:一是性能落后于人工水平,二是缺乏符合医疗场景要求的可解释性。这些问题严重阻碍了AI技术在临床实践中的应用。

为突破这些瓶颈,一项发表在《JMIR Formative Research》的研究探索了大型语言模型(LLM)辅助医疗编码的新路径。研究团队开发了一套计算机辅助编码系统,其创新性体现在两方面:首先采用RoBERTa(一种优化的双向编码器表示模型)精准提取临床文本中的"主导词"(lead terms),这是编码员工作流程的第一步;其次利用GPT-4生成代码描述,通过检索增强生成(RAG)技术完成代码匹配。

研究采用CodiEsp-X数据集(含1000例西班牙语临床病例)作为基础,通过GPT-4少样本提示创建了CodiEsp-X-lead新数据集,将原始文本证据标注转换为主导词标注。关键技术包括:1)微调RoBERTa实现主导词识别(F1
-score=0.80);2)GPT-4生成代码描述以优化RAG检索;3)基于OpenAI的text-embedding-ada-002模型构建向量数据库;4)多步骤评估框架测量各环节性能损失。

【主要结果】

  1. 主导词提取:RoBERTa模型在诊断代码主导词识别中表现优异(F1
    -score=0.82),显著优于全文本证据提取的基线模型(F1
    -score=0.65)。
  2. 描述生成优化:GPT-4生成的代码描述使RAG检索失败率降低5%(诊断代码从42.1%降至37.1%),对不完整流程代码(4轴代码)改善更显著(失败率从48.8%降至23.6%)。
  3. 系统整体表现:尽管主导词提取成功,但RAG流程最终F1
    -score仅0.305,远低于当前最优水平(0.633),主要受限于代码描述缺失和流程偏离人工编码规范。

【结论与意义】
研究证实了主导词提取策略的可行性,这为开发符合编码员工作习惯的AI工具奠定了基础。然而,单纯依赖代码描述的RAG方法效果有限,尤其对缺乏官方描述的流程代码(占比54%)表现更差。值得注意的是,该研究创建的CodiEsp-X-lead数据集为后续研究提供了宝贵资源,其通过GPT-4辅助标注的方法可推广至其他标注成本高的医学NLP任务。

讨论部分指出,未来研究应更紧密模拟人工编码流程:整合字母索引(alphabetic index)和官方指南,而非仅依赖代码描述。这提示医疗AI开发需深度结合领域工作规范,单纯技术优化可能收效有限。尽管当前系统性能未达预期,但该研究为理解LLM在专业医疗任务中的优势和局限提供了重要实证,尤其揭示了GPT-4在ICD编码任务中的参数知识局限性(描述匹配准确率仅52%)。这些发现对医疗NLP领域的方法论选择具有指导价值,强调需要开发兼顾技术性能与临床实用性的混合智能系统。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号