大语言模型在心血管决策中显著超越临床医生：一项跨医院级别的基准研究

《Scientific Reports》：Benchmarking large language models against clinicians across hospital levels in cardiovascular decision-making: a cross-sectional vignette-based study

【字体：大中小】 时间：2025年12月16日 来源：Scientific Reports 3.9

编辑推荐：

　　本研究针对AI在临床决策中的实际效能尚不明确的问题，开展了大型语言模型（LLM）与心血管临床医生的跨医院级别对比研究。通过100道标准化心血管多选题（涵盖临床推理CR、前沿更新FU、基础记忆BM和急诊决策ED四个领域）评估发现，DeepSeek-R1和ChatGPT 4.0总分分别达到97和95分，显著高于临床医生的69.7±7.9分（P<0.001）。结果表明LLMs在知识性和决策性任务中表现优异，特别是在基层医院和初级医生中优势更为明显，这为AI辅助决策支持系统缩小医疗资源差距提供了实证依据。

在人工智能（AI）技术迅猛发展的今天，大型语言模型（Large Language Models, LLMs）在标准化医学考试中已展现出令人瞩目的成绩。然而，这些模型在真实临床环境中的表现究竟如何？它们能否真正理解复杂的临床情境，做出与经验丰富的医生相媲美的决策？特别是在医疗资源分布不均的背景下，AI技术是能够弥合不同级别医院之间的诊疗水平差距，还是可能进一步加剧这种不平等？这些问题成为当前医学AI领域亟待解决的关键课题。

心血管疾病作为全球范围内的主要健康威胁，其诊疗决策的准确性与及时性直接关系到患者预后。在中国，三级医院与基层医院之间在医疗资源、医生培训水平和继续教育机会等方面存在显著差异，这种差异可能导致不同级别医院的医生在心血管疾病的诊断和治疗决策上存在不一致性。如果AI助手能够提供准确、一致的决策支持，将有望提升整体医疗质量，尤其是在资源相对匮乏的地区。

为了深入探究这一问题，来自中南大学湘雅二医院等机构的研究团队在《Scientific Reports》上发表了一项开创性研究。该研究首次系统性地对比了两种主流LLMs（DeepSeek-R1和ChatGPT-4.0）与不同级别医院心血管专科医生在标准化临床决策任务中的表现。研究采用横断面、基于临床情景问卷的设计，旨在量化评估AI模型与人类专家在心血管医学四个核心能力领域的差异。

研究人员设计了一项精心策划的实验，他们从湖南省标准化心血管题库中筛选了100道单项选择题，覆盖临床推理（Clinical Reasoning, CR，44题）、前沿知识更新（Frontier Updates, FU，14题）、基础记忆（Basic Memory, BM，31题）和急诊决策（Emergency Decision, ED，11题）四个维度。这些题目经过三位资深心血管专家组成的评审委员会严格筛选，确保了内容的专业性和代表性。

研究纳入了30名来自6家医院（3家基层医院和3家三级医院）的心血管医生，按照职称（初级、中级、高级）均衡分组。同时，研究人员对两个LLMs模型进行了相同题集的测试，每个问题均执行5次以评估模型回答的一致性。评分标准极为严格：只有当模型在5次运行中均给出正确答案时，才判定为回答正确。

主要技术方法包括：采用横断面研究设计，从标准化题库中通过分层随机抽样选取100道心血管多选题；招募30名来自不同级别医院和职称的心血管医生参与测试；对DeepSeek-R1和ChatGPT-4.0两个LLMs模型进行五轮独立测试；使用非参数Bootstrap重抽样（10000次迭代）计算均值差异和置信区间；通过Fleiss' κ系数评估模型运行间一致性。

3.1 临床医生的基线表现

研究发现，临床医生的表现存在明显的职称和医院级别差异。高级职称医生总分最高（76.8±4.5），其次是中级（72.1±4.1）和初级职称医生（60.3±2.3）。三级医院医生的总分（72.7±8.4）也显著高于基层医院医生（66.7±6.4），其中在前沿知识更新（FU）领域的差异最为明显。此外，三级医院医生完成测试的时间（37.5±6.4分钟）也短于基层医院（44.6±10.8分钟），提示其决策效率更高。

3.2 LLMs与临床医生的整体性能比较

两个LLMs模型在所有评估领域均显著优于临床医生。临床医生的平均总分为69.7±7.9，而DeepSeek-R1和ChatGPT-4.0分别获得97和95分。Bootstrap分析显示，DeepSeek-R1与临床医生的总分差异为+27.3分（95% CI：24.4-30.1），ChatGPT-4.0为+25.3分（95% CI：22.4-28.1），差异均具有统计学意义（P<0.001）。在具体领域方面，两个模型在CR、FU、BM和ED上的表现均显著优于临床医生（所有P<0.001）。

3.3 按医院级别和职称的分层分析

分层分析显示，LLMs在不同医院级别和职称组中均保持优势。在基层医院，DeepSeek-R1的总分优势达到+30.3分（95% CI 27.3-33.5），而在三级医院为+24.3分（95% CI 20.3-28.5）。按职称分组，LLMs对初级医生的优势最大（DeepSeek-R1：+36.7分），其次是中级医生（+24.9分）和高级医生（+20.2分）。

3.4 敏感性和一致性分析

敏感性分析采用按正确率比例评分的方法，结果与主要分析一致，证实了研究结果的稳健性。运行间一致性分析显示两个模型均具有高度稳定性：DeepSeek-R1在100个问题中有97个在5次运行中答案完全一致，ChatGPT-4.0在95个问题上答案一致，一致性百分比分别为97.0%和96.0%。Fleiss' κ系数表明两个模型均具有显著的可靠性（DeepSeek-R1：κ=0.73；ChatGPT-4.0：κ=0.76）。

3.5 临床医生的效率-性能相关性

时间-准确性关系分析显示，不同级别医院的医生表现出不同的模式。三级医院医生倾向于更快完成评估同时保持较高总分，表明其临床决策效率更高。而基层医院医生在时间和准确性上均表现出更大的离散度。

研究结论表明，DeepSeek-R1和ChatGPT-4.0在心血管医学的标准化评估中显著超越人类医生，特别是在基础知识、指南相关内容和急诊决策领域表现尤为突出。虽然LLMs在临床推理方面的表现已接近高级医生水平，但整体上仍显示出明显优势。

这一发现具有重要的现实意义。在基层医院和初级医生中观察到的较大性能差距，反映了医疗系统中存在的结构性不平等。LLMs有潜力作为"知识均衡器"，为资源匮乏地区的医生提供即时、基于证据的决策支持，从而缩小不同级别医院之间的专业水平差距。从公共卫生角度看，LLMs的集成可以提升诊断质量的一致性，加速新证据和指南的传播，支持基层医生的培训和技能提升，提高工作效率而无需扩大人力资源。

然而，研究者也谨慎指出，LLMs的临床应用需伴随适当的治理和伦理监督。基于知识的强大表现并不能解决情境感知、道德推理和问责制等上下文限制。过度依赖算法指导可能会使决策偏离患者的叙事和价值观。因此，需要建立透明的模型审计、可追溯的推理输出和清晰的问责框架。

这项研究为LLMs在心血管医学中的应用提供了重要的实证基础，同时也指出了未来研究的方向。需要在真实临床工作流程中进一步评估性能，探索纵向学习模式，并研究LLMs与医生如何在决策过程中相互补充。只有通过负责任地集成和强有力的治理，这些技术才能为公平、高质量和符合伦理的医疗保健服务做出贡献。

热点排行

新闻专题