编辑推荐:
在临床实践中,自由文本放射报告不利于数据提取。本研究针对此问题,评估 Claude、GPT、Gemini 三种 LLM 在颅内出血和颅骨骨折报告结构化中的表现。结果显示 Claude 性能更优,提示 LLMs 在医疗数据处理中具潜力。
在医疗影像领域,头部 CT 检查是诊断颅内出血和颅骨骨折等急危重症的关键手段。然而,传统自由文本格式的放射报告存在信息提取效率低、标准化不足等问题,严重制约了临床决策支持、研究数据挖掘和质量控制工作的开展。如何借助人工智能技术实现放射报告的自动化结构化,成为近年来医学影像与人工智能交叉领域的研究热点。
为解决这一难题,日本大阪 Metropolitan 大学等机构的研究人员开展了一项具有重要临床价值的研究。他们聚焦于大语言模型(LLMs)在头部 CT 放射报告结构化中的应用,旨在比较 Claude、GPT、Gemini 三种主流 LLM 在识别颅内出血(intracranial hemorrhage)和颅骨骨折(skull fracture)方面的诊断性能,并探索不同提示策略(Standard、Chain of Thought、Self Consistency prompting)对模型准确性的影响。这项研究成果发表在《Japanese Journal of Radiology》上,为 LLMs 在医学领域的实际应用提供了重要的循证依据。
研究团队从日本医疗影像数据库(J-MID)中收集了 2018 至 2023 年间的 3949 份头部 CT 自由文本报告,涵盖 21.6% 的颅内出血患者和 6.6% 的颅骨骨折患者。由两名具有 10 年经验的放射科医生通过独立评审和共识达成确定金标准。采用三种提示策略对三种 LLM 进行测试,每种模型 - 提示组合独立运行三次,计算准确率、精确率、召回率和 F1 分数,并通过 McNemar 检验及 Bonferroni 校正进行统计学比较,同时对误分类病例进行定性误差分析。
诊断性能与模型比较
所有九种模型 - 提示组合均表现出较高准确性。Claude 在颅内出血诊断中准确率显著高于 GPT 和 Gemini(p<0.0001),在颅骨骨折诊断中也优于 Gemini(p<0.0001)。GPT-4o 性能次之,而 Gemini 在采用 Chain of Thought 提示时准确性显著提升。例如,Claude 在颅内出血诊断中准确率达 0.98-0.99,F1 分数为 0.97-0.98;Gemini 在 Chain of Thought 提示下颅骨骨折准确率提升至 0.99,显示出提示策略对模型性能的重要影响。
误差分析与挑战
误分类分析表明,模糊表述(如 “可能”“不能排除”)、无关解剖结构提及(如颈椎骨折、术后改变)是主要误差来源。颅内出血的假阴性误差常因模型误判 “出血减少” 等表述,而假阳性多由 “低密度区”“颅外出血” 等混淆术语导致。颅骨骨折的假阳性则与 “开颅术后改变”“骨畸形” 等非骨折特征的误识别相关。这提示需通过优化提示设计增强模型对临床不确定性和解剖特异性的识别能力。
研究结论与意义
该研究首次在日语环境下对多 LLM 和提示策略进行系统性评估,证实了 LLMs 在头部 CT 报告结构化中的临床可行性。Claude 凭借其对语义细节的精准捕捉表现出领先优势,而 Gemini 通过优化提示可显著提升性能,提示模型选择与提示工程的协同重要性。尽管存在语言特异性和回顾性设计的局限性,研究结果为推动 LLMs 在医疗数据标准化、急诊快速分诊和多中心研究数据整合中的应用奠定了基础。未来需进一步开展多语言验证和前瞻性临床研究,以完善模型鲁棒性,助力智能放射学报告系统的实际落地。
这项研究不仅为医学影像的数字化转型提供了技术路径,也为人工智能在医疗领域的跨学科应用开辟了新视角。随着 LLMs 技术的不断迭代,结合更精细的提示优化和临床场景适配,其有望成为提升医疗效率、减少诊断偏差的核心工具,推动精准医学和智慧医疗的发展进程。