综述:基于变形测试的LLM自动化ICD编码应用鲁棒性与公平性评估

【字体: 时间:2025年06月21日 来源:Smart Health CS7.7

编辑推荐:

  【编辑推荐】本研究创新性地采用变形测试(MT)评估生物医学大语言模型(BioMed LLMs)在自动化ICD编码中的鲁棒性与公平性,通过设计模拟临床笔记常见错误的蜕变关系(MRs),揭示模型对输入扰动的敏感性,为医疗AI系统的可靠性验证提供方法论框架。

  

Abstract

医疗领域专用大语言模型(BioMed LLMs)如PubMedBERT和Med-PaLM通过生物医学文本预训练,已广泛应用于自动化ICD编码等关键任务。然而,这类安全敏感应用不仅需要准确性,更需关注鲁棒性(输入扰动下的稳定性)和公平性(避免人口统计学偏差)。研究团队采用变形测试(MT)系统评估模型性能,通过设计模拟拼写错误、术语替换等临床场景的蜕变关系(MRs),在MIMIC-III数据集上发现模型预测对细微输入变化高度敏感,如"呕吐"与"呕出"的术语替换可导致预测ICD代码零重叠。

Introduction

传统测试方法因缺乏标准答案和LLM的幻觉(hallucination)特性而失效。MT通过输入输出关系验证系统行为,例如正弦函数满足sin(x+2π)=sin(x)的特性。本研究针对ICD编码任务(输出top-k诊断代码),构建了包括添加/拼错/替换单词(如化学物质与缩写互换)等MRs,形成可复用的评估框架。实验显示,缩写替换导致70-81%的MR失败率,而性别相关术语修改会引发预测偏差,证实公平性缺陷。

Metamorphic testing

MT流程分为三步:1)定义MRs(如临床笔记中"胸痛"与"胸部不适"应触发相同ICD代码);2)生成初始输入(原始临床文本)与衍生输入(施加MR变换);3)验证输出一致性。通过量化指标IMR(预测代码重叠度)评估系统,当IMR<5(k=5时)判定为失败。

Experimental setup

研究选取PLM-ICD模型(因其他模型存在复现限制),在MIMIC-III的测试集上实施六类MRs:

  • 词汇操作:添加无意义词(如"头痛name"→"头痛naem")
  • 术语标准化:替换解剖学术语("腹部"?"腹腔")
  • 化学物质转换:药品名与分子式互换("布洛芬"?"C13H18O2")

Results and discussion

鲁棒性缺陷:术语替换对预测影响最大,如"呕吐"→"呕出"使IMR降至0;拼写错误导致15%关键诊断遗漏。公平性问题:包含性别标识词(如"孕妇")的笔记会错误关联妇科代码,揭示数据偏差。

Conclusion

该研究证实BioMed LLMs在真实医疗场景中的脆弱性,提出MT可作为标准化评估工具。未来需扩展MRs覆盖更多医疗语言变异,并开发针对性的模型增强方法。美国北佛罗里达大学MedNexus研究创新基金支持了本工作。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号