大型推理模型在放射科诊断中的推理过程提升肿瘤影像解读的完整性与可解释性

《npj Digital Medicine》：Diagnostic and interpretive gains from reasoning over conclusions with a large reasoning model in radiology

【字体：大中小】 时间：2026年01月01日 来源：npj Digital Medicine 15.1

编辑推荐：

　　本研究针对放射科医生在撰写影像报告结论时易遗漏次要发现的问题，系统评估了大型推理模型（LRM）的推理过程对肿瘤影像诊断的价值。研究人员比较了DeepSeek-R1模型的推理输出与仅结论输出及两种非推理模型的性能，发现推理过程显著降低了漏诊和误诊率（特别是次要诊断错误从23.11%降至3.22%），提高了报告的全面性和可解释性。该研究为AI辅助诊断系统提供了重要的透明度保障，对提升肿瘤分期准确性和临床决策可靠性具有重要意义。

在放射科医生的日常工作中，从影像发现中提炼出临床可靠的诊断结论是一项核心但极具挑战性的任务。尽管影像发现部分描述了医生的直接观察结果并传递了部分解读逻辑，但结论部分需要经过深思熟虑的整合，对细节进行优先级排序、情境化处理和综合分析。目前，结论部分由放射科医生手动起草，这一过程具有主观性，容易发生遗漏和误诊。研究表明，放射科实践中每天的差错率约为3-5%，其中遗漏细微的次要发现（如小转移灶）尤为常见，这些遗漏在肿瘤影像中可能导致分期不足或治疗方案欠佳。

近年来，大型语言模型（LLM）的发展实现了放射学报告的部分自动化。研究人员已经评估了LLM在多种放射学相关任务中的表现，包括报告简化、错误校正和结论生成。然而，大多数LLM生成结论时并未解释其底层推理过程，这种透明度的缺失限制了临床信任，因为放射科医生无法验证结论的推导过程。此外，纯结论性输出可能会遗漏细微但临床意义重大的发现，降低了生成结论的可靠性。

OpenAI o1类大型推理模型（LRM）的出现标志着LLM发展的范式转变，即从训练时计算转向测试时计算，通过让LLM在推理过程中进行更多"思考"来提升性能。以开创性开源LRM DeepSeek-R1为例，得益于思维链（CoT）和强化学习（RL）技术，它展现出卓越的推理能力，能够输出原生且明确的推理过程。更重要的是，该模型支持推理过程中的自我反思，可极大提升生成性能，特别是在解决数学和编程任务方面。推理能力的进步使其有望克服GPT-4等非推理LLM的局限性，通过更深入、更审慎的推理实现更准确的医学诊断。

本研究旨在系统评估LRM生成的推理过程对肿瘤影像结论生成的影响。使用开源模型DeepSeek-R1作为代表性LRM，研究人员比较了基于推理的输出与模型自身仅结论输出以及两种非推理LLM输出在诊断质量、生成质量和工作流程相关性能方面的差异，覆盖了多种癌症类型、影像模态、机构和语言。通过聚焦推理过程本身而非仅关注最终推理得出的结论，这项工作试图明确显性推理是否能提升诊断完整性、可解释性和临床可靠性。

研究团队分析了990例肿瘤病例，涵盖乳腺、肺和结直肠癌三种癌症类型，包括CT、MRI和乳腺X线摄影（MG）三种影像模态。比较了DeepSeek-R1输出的两个组成部分：（i）DeepSeek-R1（推理）：逐步推理过程；（ii）DeepSeek-R1（结论）：从推理过程中得出的后续结论。此外，还将DeepSeek-R1（推理）与两种非推理LLM（DeepSeek-V3_0324和GPT-4.5）进行了比较。模型输出从八个诊断和质量指标进行评估，诊断指标针对肿瘤放射学中四种常见错误，质量指标包括全面性、可解释性、简洁性和无偏性。

研究还进行了涉及六名放射科医生的人机协同研究，评估不同模型输出的信息完整性、推理帮助度和短期可编辑性。为评估跨语言泛化能力，还使用英语MIMIC-Cancer-90队列进行了测试。

主要技术方法包括：从三家中国医疗机构收集900例肿瘤病例的放射学报告，提取影像发现部分输入DeepSeek-R1生成输出；使用两种非推理LLM（GPT-4.5和DeepSeek-V3_0324）生成结论作为对比；由资深放射科医生独立评估LLM生成的输出，使用四种诊断指标和四种质量指标进行评分；进行人机协同读者研究，六名不同资历的放射科医生评估模型输出的临床可解释性和工作流程可用性。

推理过程与仅结论比较

结果显示，DeepSeek-R1（推理）在四项诊断指标上均显著优于DeepSeek-R1（结论）：主要诊断遗漏（MPD）从5.56%降至0.67%，次要诊断遗漏（MSD）从23.11%降至3.22%，主要误诊（PMisD）从4.78%降至0.56%，次要误诊（SMisD）从11.33%降至6.11%。在质量指标方面，DeepSeek-R1（推理）在全面性、可解释性和无偏性三个维度上均显著优于仅结论输出，但在简洁性方面得分较低，生成了更详细冗长的输出。

推理过程与非推理模型比较

DeepSeek-R1（推理）在诊断性能上显著优于两种非推理LLM，特别是在MSD和SMisD方面。DeepSeek-V3_0324的MSD错误率为17.78%，GPT-4.5为7.89%，而DeepSeek-R1（推理）仅为3.22%。在生成质量方面，DeepSeek-R1（推理）在可解释性方面获得最高评分，全面性显著高于DeepSeek-V3_0324且与GPT-4.5相当，无偏性保持较高水平。

跨语言验证

在英语MIMIC-Cancer-90队列上，DeepSeek-R1（推理）同样一致优于仅结论输出，在诊断和质量指标上均表现出显著优势，特别是在MSD错误率降低以及全面性和可解释性提升方面，效应量较大，表明这些改进不仅具有统计学意义，而且具有相当大的实际幅度。

残余错误分析

尽管推理过程带来了整体改进，但基于推理的结论中仍存在一些诊断错误。最常见的错误是将良性实体过度诊断为转移性疾病：最常见的是肝血管瘤被标记为肝转移（6例），其次是双侧散在肺结节（4例）和多个肝囊肿（4例）被解读为转移。第二类错误反映了对肿瘤相关发现的识别不足，包括阻塞性肺炎（3例）、乳腺癌胸肌侵犯（3例）和淋巴结转移（3例）。

结论失败现象

研究发现了一种重要的可靠性问题——结论失败，即模型的推理在诊断上是正确的，但最终结论与之矛盾。DeepSeek-R1在MPD、MSD、PMisD和SMisD四个诊断指标上的结论失败率分别为4.67%、19.33%、3.44%和7.33%，在次要诊断（MSD和SMisD）上尤为普遍。

人机协同读者研究

在所有六名放射科医生中，DeepSeek-R1（推理）一致改善了信息完整性和推理帮助度。对于信息完整性，在六名读者中有五名中，推理条件的顶级评分（等级3："充足且临床合理"）比例显著更高。同样，四名读者的推理帮助度评分显著更高。相比之下，短期可编辑性评分在四名读者中倾向于仅结论输出，表明更简洁的DeepSeek-R1（结论）需要更少的精力来完善为可交付的临床结论。对于评估时间，DeepSeek-R1（推理）在四名读者中需要显著更长的每例阅读时间。

按经验分层时，1-3号读者（初级，<10年）在DeepSeek-R1（推理）和DeepSeek-R1（结论）之间表现出更大的性能差距，在完整性和推理帮助度方面获得更大增益，但时间成本也更高。相比之下，4-6号读者（高级，≥10年）在两种条件下表现出更稳定的性能，在所有维度上保持相当的评分。

本研究系统探讨了LRM生成的推理过程对放射学结论生成的影响。跨癌症类型、影像模态、机构和报告语言的研究结果表明，与自身仅结论输出和两种非推理LLM相比，DeepSeek-R1基于推理的输出一致改善了诊断完整性和解读质量。这些发现强调，LRM的诊断益处不仅来自更强大的语言生成能力，还来自推理过程本身。

在人机协同读者研究中，基于推理的输出在信息完整性和推理帮助度方面一致获得更高评分，进一步证实显性推理增强了诊断透明度，减少了关键发现的遗漏。然而，这些益处是以工作流程成本为代价的，因为较长的推理输出需要更多时间进行审阅和编辑，特别是在初级读者中。仅结论文本在短时间框架内被评为更易于编辑，且需要更短的阅读时间。相比之下，高级读者在推理和结论输出之间保持相当的效率，表明诊断经验减轻了解读显性推理的认知负荷。

这一改进的临床意义是多方面的。首先，次要错误（特别是MSD）的大幅减少意味着显性推理有助于捕捉与分期、治疗计划和预后评估相关的细微但临床决定性的信息。其次，推理透明度有可能为放射科医生提供可验证的决策路径，使他们能够审核模型逻辑并将自动化结论与人类判断相协调。

尽管有这些优势，单独使用推理过程也引入了一些实际和方法学挑战。第一个挑战涉及工作流程效率和简洁性。人机协同研究显示，显性推理虽然改善了诊断完整性和透明度，但增加了大多数放射科医生的阅读和编辑时间，特别是对那些经验较少的医生。第二个挑战涉及残余诊断错误。虽然推理减少了主要失败模式，但并未完全消除良性与转移性发现之间的混淆或对肿瘤相关特征的识别不足。第三个挑战与推理-结论不对齐有关。结论失败现象凸显了分析推理与生成总结之间的差距。

从方法学角度看，本研究展示了一种评估支持推理模型的新范式：不仅通过最终结果衡量性能，还分析导致这些结果的过程级行为。从转化角度看，显性推理可以作为人类与人工决策之间的桥梁。推理痕迹可以有选择地在报告系统中显示为"可审计证据"，允许放射科医生检查模型如何整合发现，与原始影像数据交叉核对，并标记潜在的不一致之处。

这项研究有几个局限性。首先，所有评估都是回顾性的。虽然进行了人机协同读者研究来评估可解释性和可用性，但这项工作不构成实时或前瞻性部署。其次，由于DeepSeek-R1是一个代表性的支持推理模型，并且鉴于最新的LRM可能类似地受到RL奖励不对齐和位置偏差的影响，本研究的结果更可能反映推理范式效应而非模型特定现象。此外，本研究仅关注从发现到结论的步骤，未评估端到端影像解读或多模态视觉语言系统。

研究表明，LRM中的显性推理相比仅结论生成改善了放射学结论的完整性和可解释性。这些益处在中文和英语队列中一致，并得到人机协同读者研究的进一步支持，显示了更清晰的诊断逻辑，但也带来了可衡量的阅读和编辑时间增加。研究结果突出了将基于推理的系统整合到临床工作流程中的潜在价值和实际约束，包括与推理-结论对齐和残余次要错误相关的挑战。未来工作应聚焦于放射学特定对齐、验证机制和工作流程感知优化，以实现在临床实践中可靠且高效地部署支持推理的模型。

热点排行

新闻专题