Med-SCoT:基于结构化思维链的医学视觉问答框架提升临床决策可解释性

【字体: 时间:2025年11月02日 来源:Computerized Medical Imaging and Graphics 4.9

编辑推荐:

  本文提出Med-SCoT模型,首次将结构化思维链(SCoT)引入医学视觉问答(Med-VQA)领域。该模型通过四阶段推理(摘要-描述-推理-结论)显著提升答案准确性与过程可解释性,并创新性提出协同标注流程(CoCo)与评估框架SCoTEval,为临床AI决策提供透明化推理路径。

  
Highlight
我们的研究亮点在于首次将结构化思维链(Structured Chain-of-Thought, SCoT)引入医学视觉问答(Med-VQA)领域!通过设计四阶段推理框架(摘要-描述-推理-结论),Med-SCoT模型不仅实现高精度回答,更生成符合临床逻辑的透明化推理路径。配套开发的SCoTEval评估体系突破传统指标局限,为医疗AI的可解释性评估树立新标杆。
Medical visual question answering(医学视觉问答)
医学视觉问答(Med-VQA)是融合计算机视觉、自然语言处理和医学影像的前沿交叉任务。与通用VQA不同,Med-VQA需依赖深度医学知识进行精准视觉定位,以支持临床推理与决策。典型Med-VQA系统包含视觉编码器、文本编码器和多模态融合模块,但现有模型多侧重答案准确性而忽视推理过程透明度。
Method(方法)
为攻克现有Med-VQA系统的系统性与结构性缺陷,我们基于LLaVA-Med模型构建Med-SCoT,将推理过程明确划分为四个阶段:
  • Summary(摘要):明确核心临床问题并规划诊断路径
  • Caption(描述):精准定位影像关键特征(如主动脉壁增厚、高密度灶)
  • Reasoning(推理):结合视觉发现与医学知识进行病理分析
  • Conclusion(结论):综合生成临床可信的答案
    每个阶段均用标签(如)清晰界定,确保逻辑连贯性。
Structured CoT evaluation framework(结构化思维链评估框架)
传统评估过度依赖BLEU-1等词汇重叠指标,无法捕捉临床语义逻辑。SCoTEval创新性地融合客观指标与LLM主观评估,实现链级/阶段级多维评价:
  • 链级评估:考察问题相关性、临床正确性、推理一致性
  • 阶段级评估:精确定位错误来源(如规划偏差、感知错误)
    该框架能有效识别“答案正确但推理错误”的陷阱案例,为模型优化提供导航图。
Experiments and results(实验与结果)
四组实验验证框架有效性:
  1. 1.
    答案准确性:Med-SCoT在封闭/开放端基准测试中超越LLaVA-Med++等模型
  2. 2.
    推理质量:SCoTEval显示其推理链在临床对齐度上显著优于Gemini 2.5
  3. 3.
    消融实验:四阶段结构有效缓解逻辑跳跃与语义漂移
  4. 4.
    人工评估:SCoTEval与专家评判一致性达89.7%
Discussion(讨论)
结构化推理使模型在各阶段专注特定子任务,显著降低传统生成模型的阶段混淆风险。值得注意的是,CoCo标注流程通过多模型协同修正,将视觉语言模型(VLM)的感知优势与大型语言模型(LLM)的推理能力结合,有效减少单模型标注的幻觉现象。
Conclusion(结论)
Med-SCoT通过结构化思维链实现医学VQA的透明化推理,SCoTEval框架则为医疗AI的可解释性评估提供新范式。未来工作将探索动态阶段适配机制,进一步强化模型在复杂临床场景中的推理鲁棒性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号