综述：基于变形测试的LLM自动化ICD编码应用鲁棒性与公平性评估

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年06月21日 来源：Smart Health CS7.7

编辑推荐：

　　【编辑推荐】本研究创新性地采用变形测试（MT）评估生物医学大语言模型（BioMed LLMs）在自动化ICD编码中的鲁棒性与公平性，通过设计模拟临床笔记常见错误的蜕变关系（MRs），揭示模型对输入扰动的敏感性，为医疗AI系统的可靠性验证提供方法论框架。

Abstract

医疗领域专用大语言模型（BioMed LLMs）如PubMedBERT和Med-PaLM通过生物医学文本预训练，已广泛应用于自动化ICD编码等关键任务。然而，这类安全敏感应用不仅需要准确性，更需关注鲁棒性（输入扰动下的稳定性）和公平性（避免人口统计学偏差）。研究团队采用变形测试（MT）系统评估模型性能，通过设计模拟拼写错误、术语替换等临床场景的蜕变关系（MRs），在MIMIC-III数据集上发现模型预测对细微输入变化高度敏感，如"呕吐"与"呕出"的术语替换可导致预测ICD代码零重叠。

Introduction

传统测试方法因缺乏标准答案和LLM的幻觉（hallucination）特性而失效。MT通过输入输出关系验证系统行为，例如正弦函数满足sin(x+2π)=sin(x)的特性。本研究针对ICD编码任务（输出top-k诊断代码），构建了包括添加/拼错/替换单词（如化学物质与缩写互换）等MRs，形成可复用的评估框架。实验显示，缩写替换导致70-81%的MR失败率，而性别相关术语修改会引发预测偏差，证实公平性缺陷。

Metamorphic testing

MT流程分为三步：1）定义MRs（如临床笔记中"胸痛"与"胸部不适"应触发相同ICD代码）；2）生成初始输入（原始临床文本）与衍生输入（施加MR变换）；3）验证输出一致性。通过量化指标I_MR（预测代码重叠度）评估系统，当I_MR<5（k=5时）判定为失败。

Experimental setup

研究选取PLM-ICD模型（因其他模型存在复现限制），在MIMIC-III的测试集上实施六类MRs：

词汇操作：添加无意义词（如"头痛name"→"头痛naem"）
术语标准化：替换解剖学术语（"腹部"?"腹腔"）
化学物质转换：药品名与分子式互换（"布洛芬"?"C₁₃H₁₈O₂"）

Results and discussion

鲁棒性缺陷：术语替换对预测影响最大，如"呕吐"→"呕出"使I_MR降至0；拼写错误导致15%关键诊断遗漏。公平性问题：包含性别标识词（如"孕妇"）的笔记会错误关联妇科代码，揭示数据偏差。

Conclusion

该研究证实BioMed LLMs在真实医疗场景中的脆弱性，提出MT可作为标准化评估工具。未来需扩展MRs覆盖更多医疗语言变异，并开发针对性的模型增强方法。美国北佛罗里达大学MedNexus研究创新基金支持了本工作。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号