
-
生物通官微
陪你抓住生命科技
跳动的脉搏
综述:基于变形测试的LLM自动化ICD编码应用鲁棒性与公平性评估
【字体: 大 中 小 】 时间:2025年06月21日 来源:Smart Health CS7.7
编辑推荐:
【编辑推荐】本研究创新性地采用变形测试(MT)评估生物医学大语言模型(BioMed LLMs)在自动化ICD编码中的鲁棒性与公平性,通过设计模拟临床笔记常见错误的蜕变关系(MRs),揭示模型对输入扰动的敏感性,为医疗AI系统的可靠性验证提供方法论框架。
医疗领域专用大语言模型(BioMed LLMs)如PubMedBERT和Med-PaLM通过生物医学文本预训练,已广泛应用于自动化ICD编码等关键任务。然而,这类安全敏感应用不仅需要准确性,更需关注鲁棒性(输入扰动下的稳定性)和公平性(避免人口统计学偏差)。研究团队采用变形测试(MT)系统评估模型性能,通过设计模拟拼写错误、术语替换等临床场景的蜕变关系(MRs),在MIMIC-III数据集上发现模型预测对细微输入变化高度敏感,如"呕吐"与"呕出"的术语替换可导致预测ICD代码零重叠。
传统测试方法因缺乏标准答案和LLM的幻觉(hallucination)特性而失效。MT通过输入输出关系验证系统行为,例如正弦函数满足sin(x+2π)=sin(x)的特性。本研究针对ICD编码任务(输出top-k诊断代码),构建了包括添加/拼错/替换单词(如化学物质与缩写互换)等MRs,形成可复用的评估框架。实验显示,缩写替换导致70-81%的MR失败率,而性别相关术语修改会引发预测偏差,证实公平性缺陷。
MT流程分为三步:1)定义MRs(如临床笔记中"胸痛"与"胸部不适"应触发相同ICD代码);2)生成初始输入(原始临床文本)与衍生输入(施加MR变换);3)验证输出一致性。通过量化指标IMR(预测代码重叠度)评估系统,当IMR<5(k=5时)判定为失败。
研究选取PLM-ICD模型(因其他模型存在复现限制),在MIMIC-III的测试集上实施六类MRs:
鲁棒性缺陷:术语替换对预测影响最大,如"呕吐"→"呕出"使IMR降至0;拼写错误导致15%关键诊断遗漏。公平性问题:包含性别标识词(如"孕妇")的笔记会错误关联妇科代码,揭示数据偏差。
该研究证实BioMed LLMs在真实医疗场景中的脆弱性,提出MT可作为标准化评估工具。未来需扩展MRs覆盖更多医疗语言变异,并开发针对性的模型增强方法。美国北佛罗里达大学MedNexus研究创新基金支持了本工作。
生物通微信公众号
知名企业招聘