一项关于大型语言模型在需接受非心脏手术的心脏病患者术前麻醉评估与规划中的应用探索性研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《BMC Anesthesiology》：An exploratory study of large language models in preoperative anesthesia assessment and planning for cardiac patients undergoing noncardiac surgery

【字体：大中小】 时间：2026年06月14日 来源：BMC Anesthesiology 2.6

编辑推荐：

　　摘要背景随着大型语言模型在临床应用中的快速发展，其在围手术期麻醉评估中的潜在作用越来越受到研究关注。本研究旨在系统比较ChatGPT、DeepSeek和Grok这三款大型语言模型在为接受非心脏手术的心脏病患者进行术前麻醉评估及制定麻醉计划方面的性能，尤其是准确率与模型间一致性，并

摘要

背景

随着大型语言模型在临床应用中的快速发展，其在围手术期麻醉评估中的潜在作用越来越受到研究关注。本研究旨在系统比较ChatGPT、DeepSeek和Grok这三款大型语言模型在为接受非心脏手术的心脏病患者进行术前麻醉评估及制定麻醉计划方面的性能，尤其是准确率与模型间一致性，并评估它们与专家共识组的契合度。

方法

共有41名有严重心脏病史的患者，其病例资料来自真实医疗记录并经过标准化处理，由ChatGPT、DeepSeek和Grok这三款模型对其进行分析。这些模型的输出结果会与由5位资深麻醉师组成的专家共识组所制定的结构化参考标准进行对比。研究通过Krippendorff’s α系数和Cohen’s κ系数来分析一致性及准确率，同时结合定性主题分析方法进行进一步研究。

结果

在ASA分级方面，DeepSeek的准确率最高，为73.2%，其次是Grok的70.7%，ChatGPT则为58.5%。在NYHA功能分级和RCRI评分中，Grok在两项任务中的准确率均最高，均为75.6%，而ChatGPT的准确率最低，为46.3%。在肺部风险评估方面，Grok的准确率为80.5%，DeepSeek为78.0%，均高于ChatGPT的51.2%。不同评估任务中，模型间以及模型与专家之间的契合度存在差异，从较小到较大不等。所有模型都倾向于推荐全身麻醉，这一比例超过85%，并且都过度强调对有创血压和中心静脉压的监测，而没有任何模型提到使用双频指数进行监测。

结论

这项探索性研究表明，目前的大型语言模型在复杂心脏病例的术前规划方面与专家共识的契合度尚不尽如人意。虽然它们还不能直接用于临床，但其基于规则的结构性推理框架可在专家指导下作为辅助检查清单或第二意见参考工具。未来需要开展多中心验证研究，使用多样且高质量的数据集以及标准化的临床评估指标，以此优化模型训练，提升模型的通用性，并进一步验证其在临床中的应用价值。

背景

随着大型语言模型在临床应用中的快速发展，其在围手术期麻醉评估中的潜在作用越来越受到研究关注。本研究旨在系统比较ChatGPT、DeepSeek和Grok这三款大型语言模型在为接受非心脏手术的心脏病患者进行术前麻醉评估及制定麻醉计划方面的性能，尤其是准确率与模型间一致性，并评估它们与专家共识组的契合度。

方法

共有41名有严重心脏病史的患者，其病例资料来自真实医疗记录并经过标准化处理，由ChatGPT、DeepSeek和Grok这三款模型对其进行分析。这些模型的输出结果会与由5位资深麻醉师组成的专家共识组所制定的结构化参考标准进行对比。研究通过Krippendorff’s α系数和Cohen’s κ系数来分析一致性及准确率，同时结合定性主题分析方法进行进一步研究。

结果

在ASA分级方面，DeepSeek的准确率最高，为73.2%，其次是Grok的70.7%，ChatGPT则为58.5%。在NYHA功能分级和RCRI评分中，Grok在两项任务中的准确率均最高，均为75.6%，而ChatGPT的准确率最低，为46.3%。在肺部风险评估方面，Grok的准确率为80.5%，DeepSeek为78.0%，均高于ChatGPT的51.2%。不同评估任务中，模型间以及模型与专家之间的契合度存在差异，从较小到较大不等。所有模型都倾向于推荐全身麻醉，这一比例超过85%，并且都过度强调对有创血压和中心静脉压的监测，而没有任何模型提到使用双频指数进行监测。

结论

这项探索性研究表明，目前的大型语言模型在复杂心脏病例的术前规划方面与专家共识的契合度尚不尽如人意。虽然它们还不能直接用于临床，但其基于规则的结构性推理框架可在专家指导下作为辅助检查清单或第二意见参考工具。未来需要开展多中心验证研究，使用多样且高质量的数据集以及标准化的临床评估指标，以此优化模型训练，提升模型的通用性，并进一步验证其在临床中的应用价值。

联系信箱：

粤ICP备09063491号

摘要

背景

方法

结果

结论

背景

方法

结果

结论

热点排行