ConfiDx:不确定性感知大语言模型在可解释疾病诊断中的突破与应用

《npj Digital Medicine》:Uncertainty-aware large language models for explainable disease diagnosis

【字体: 时间:2025年11月20日 来源:npj Digital Medicine 15.1

编辑推荐:

  本研究针对临床诊断中因证据不足导致的诊断不确定性识别与解释难题,开发了基于诊断准则微调的不确定性感知大语言模型ConfiDx。通过构建多维度标注数据集并采用多任务学习框架,研究证实ConfiDx在疾病诊断准确率、不确定性识别(AccuracyEU/F1EU)及解释生成方面显著优于基线模型,尤其在跨机构验证(UMN-CDR)和未知疾病类型测试(MIMIC-U)中表现出强鲁棒性。AI辅助临床医生使不确定性识别和解释准确率分别提升10.7%和26%,为提升临床决策可信度提供了新范式。

  
在临床实践中,医生常常面临诊断不确定性的挑战——当患者的症状、体征或实验室检查结果不足以满足特定疾病的诊断标准时,做出明确诊断变得困难。这种不确定性在初级诊疗和重症监护室尤为常见,可能导致误诊或延误治疗。尽管人工智能在医疗诊断领域取得了显著进展,但现有系统大多专注于提高诊断准确率,而忽视了识别和解释诊断不确定性的能力,这限制了它们在真实临床场景中的应用价值。
传统诊断系统如基于深度学习的模型虽然在区分疾病方面表现优异,但难以融入医学知识(如临床指南)来评估患者信息的完整性或生成符合事实的解释。近年来,大语言模型(LLM)展现出在临床决策中的潜力,它们能够生成全面的诊断解释。然而,现有研究揭示了大语言模型在诊断任务中的局限性:模型置信度与事实准确性常常不匹配,存在对错误诊断过度自信的倾向,且无法为诊断不确定性提供叙述性解释。
为了解决这些问题,明尼苏达大学Rui Zhang团队在《npj Digital Medicine》上发表了题为"Uncertainty-aware large language models for explainable disease diagnosis"的研究,开发了ConfiDx系统。该研究首次形式化了不确定性感知诊断任务,构建了包含细致标注的数据集,并提出了整合诊断准则的微调方法,使大语言模型能够像临床专家一样遵循诊断标准并识别不确定性。
研究人员采用了多管齐下的技术路线。他们从MIMIC-IV和UMN-CDR(University of Minnesota Clinical Data Repository)数据库中提取临床笔记,聚焦内分泌科、心脏病学和肝脏病学三个专业领域,构建了包含不同证据完整度的数据集。通过多智能体标注框架结合专家验证,为每份临床笔记标注了诊断证据和支持解释。研究采用四种开源大语言模型(LLaMA-3.1-70B、DeepSeek-R1-70B、BioLLaMA-70B和Med42-70B)作为基础,通过参数高效微调(LoRA)技术将诊断任务构建为多任务学习框架,包括疾病诊断、诊断解释、不确定性识别和不确定性解释四个子任务。
不确定性感知诊断性能:在MIMIC测试集上,微调后的模型在疾病诊断准确率上相比原始模型提升了超过68.3%。对于诊断不确定性识别,微调模型在AccuracyEU和F1EU指标上分别达到0.644-0.709和0.638-0.715,显著优于基线模型的0.046和0.083。这一结果表明ConfiDx能够有效识别那些因临床证据不足而无法做出明确诊断的病例。
解释性能:在诊断解释方面,微调模型在Interpret. Accuracy指标上提升了25.3%-43.8%,在BERTScore、SentenceBert和METEOR等语义相似度指标上平均提升了119.4%。对于不确定性解释,原始模型平均性能仅为0.017,而微调模型提升至0.214-0.245。人工评估进一步证实,微调模型在解释正确性和完整性上的得分显著高于基线。
鲁棒性评估:在包含训练时未见疾病类型的MIMIC-U数据集上,ConfiDx表现出良好的鲁棒性。诊断准确率达到0.263-0.294,相比原始模型提升28.4%-41.8%。不确定性识别性能也保持稳定,AccuracyEU和F1EU分别达到0.471和0.497。这表明模型学会的不仅仅是记忆训练数据中的疾病模式,而是能够根据诊断准则进行推理。
泛化性评估:跨机构验证使用UMN-CDR数据集进行,ConfiDx在诊断准确率上平均提升0.162-0.186,在不确定性识别上达到AccuracyEU 0.497和F1EU 0.569。尽管两个数据集在记录风格和文本长度上存在差异,模型仍能保持优异性能,证明其具有良好的泛化能力。
与大规模LLM的比较:研究还对比了ConfiDx与参数量达千亿级别的商业大模型(GPT-4o、OpenAI-o1、Gemini-2.0、Claude-3.7和DeepSeek-R1)在PMC病例报告上的表现。尽管ConfiDx仅拥有700亿参数,但在不确定性识别准确率上(0.80-0.90)显著优于所有大规模模型(0.45-0.65)。这表明专门针对医学任务进行微调比单纯增加模型参数更为重要。
关键因素分析:训练数据规模和多样性对模型性能有显著影响。当使用10%的训练数据时,模型已能达到可接受的性能水平(诊断准确率0.239,解释准确率0.541);随着数据量和多样性的增加,性能逐步提升并最终收敛。多任务学习框架中每个子任务都对整体性能有贡献,去除任一任务都会导致性能下降。
案例研究:具体案例展示了ConfiDx的优越性。在一个急性肝衰竭的病例中,原始LLaMA模型做出了错误诊断(严重代谢性酸中毒)并提供了错误解释,而ConfiDx正确识别出急性肝衰竭的诊断,同时指出因缺少"无肝硬化病史"的证据而存在诊断不确定性。这种能力对于区分病因、严重程度、治疗和预后差异巨大的疾病至关重要。
AI增强的临床评估:最令人印象深刻的是ConfiDx与临床专家的协作效果。在200例MIMIC-U数据集样本上,AI辅助的专家在不确定性识别上比独立工作的专家提升10.7%,在诊断解释准确率上提升14.6%,在不确定性解释上提升26.3%。这表明ConfiDx能够有效补充专家的决策过程,而非简单地模仿人类判断。
研究讨论部分强调了几个关键发现。原始大语言模型在真实临床笔记诊断任务中表现受限,主要原因是它们倾向于高估临床信息的充分性,即使这些信息明显不符合诊断标准。这种过度自信源于其通用性训练目标与专业医学推理需求之间的不匹配。相比之下,通过诊断准则微调的ConfiDx不仅学会了识别疾病模式,还内化了评估证据充分性的能力。
ConfiDx在解释能力上的提升归功于指令微调过程中注入的医学知识。模型学会了将诊断标准与多变的症状描述相关联,从而能够准确识别未满足的标准并澄清不确定性基础。更重要的是,模型展现出的对未见疾病类型的鲁棒性和跨机构泛化能力,表明它真正学会了基于诊断准则进行推理,而非简单地记忆训练数据中的模式。
研究的局限性包括未评估参数量更小的模型、无法在商业大模型上验证提出的方法、以及尚未探索替代的人机协作工作流程。未来研究可以进一步探索微调在减轻大语言模型幻觉(hallucination)方面的作用,特别是在生成诊断解释时产生事实错误内容的问题。
综上所述,这项研究首次系统性地解决了大语言模型在诊断不确定性识别和解释方面的关键挑战。通过形式化不确定性感知诊断任务、构建专业标注数据集以及开发整合诊断准则的微调方法,ConfiDx在诊断准确性、解释可靠性和不确定性识别方面实现了显著提升。这项工作极大推进了基于大语言模型的诊断模型的可信度,为缓解临床实践中的诊断不确定性担忧、确保可靠且可解释的临床决策提供了重要工具。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号