今日动态 返回首页
会员注册 登录 生物通快讯免费订阅
  • 首页 今日动态 人才市场 新技术专栏 中国科学人 云展台
    BioHot
    • 定制我的BioHot
    • 进入我的BioHot
    • 进入我的集采
    • 肿瘤癌症研究
    • 免疫/基因/细胞疗法
    • 神经生物学
    • 健康与疾病
    • 衰老机制与长寿
    • 单细胞技术
    • 基因编辑-CRISPR
    • RNA研究
    • 肠道菌与人体微生态
    • 细胞代谢
    • AI生物信息学
    • COVID
    云讲堂直播 会展中心 特价专栏 技术快讯 免费试用

  • 生物通官微
    陪你抓住生命科技
    跳动的脉搏

生物通首页  >  今日动态  >  正文

一项关于大型语言模型在需接受非心脏手术的心脏病患者术前麻醉评估与规划中的应用探索性研究

《BMC Anesthesiology》:An exploratory study of large language models in preoperative anesthesia assessment and planning for cardiac patients undergoing noncardiac surgery

【字体: 大 中 小 】 时间:2026年06月14日 来源:BMC Anesthesiology 2.6

编辑推荐:

  摘要背景随着大型语言模型在临床应用中的快速发展,其在围手术期麻醉评估中的潜在作用越来越受到研究关注。本研究旨在系统比较ChatGPT、DeepSeek和Grok这三款大型语言模型在为接受非心脏手术的心脏病患者进行术前麻醉评估及制定麻醉计划方面的性能,尤其是准确率与模型间一致性,并

  

摘要

背景

随着大型语言模型在临床应用中的快速发展,其在围手术期麻醉评估中的潜在作用越来越受到研究关注。本研究旨在系统比较ChatGPT、DeepSeek和Grok这三款大型语言模型在为接受非心脏手术的心脏病患者进行术前麻醉评估及制定麻醉计划方面的性能,尤其是准确率与模型间一致性,并评估它们与专家共识组的契合度。

方法

共有41名有严重心脏病史的患者,其病例资料来自真实医疗记录并经过标准化处理,由ChatGPT、DeepSeek和Grok这三款模型对其进行分析。这些模型的输出结果会与由5位资深麻醉师组成的专家共识组所制定的结构化参考标准进行对比。研究通过Krippendorff’s α系数和Cohen’s κ系数来分析一致性及准确率,同时结合定性主题分析方法进行进一步研究。

结果

在ASA分级方面,DeepSeek的准确率最高,为73.2%,其次是Grok的70.7%,ChatGPT则为58.5%。在NYHA功能分级和RCRI评分中,Grok在两项任务中的准确率均最高,均为75.6%,而ChatGPT的准确率最低,为46.3%。在肺部风险评估方面,Grok的准确率为80.5%,DeepSeek为78.0%,均高于ChatGPT的51.2%。不同评估任务中,模型间以及模型与专家之间的契合度存在差异,从较小到较大不等。所有模型都倾向于推荐全身麻醉,这一比例超过85%,并且都过度强调对有创血压和中心静脉压的监测,而没有任何模型提到使用双频指数进行监测。

结论

这项探索性研究表明,目前的大型语言模型在复杂心脏病例的术前规划方面与专家共识的契合度尚不尽如人意。虽然它们还不能直接用于临床,但其基于规则的结构性推理框架可在专家指导下作为辅助检查清单或第二意见参考工具。未来需要开展多中心验证研究,使用多样且高质量的数据集以及标准化的临床评估指标,以此优化模型训练,提升模型的通用性,并进一步验证其在临床中的应用价值。

背景

随着大型语言模型在临床应用中的快速发展,其在围手术期麻醉评估中的潜在作用越来越受到研究关注。本研究旨在系统比较ChatGPT、DeepSeek和Grok这三款大型语言模型在为接受非心脏手术的心脏病患者进行术前麻醉评估及制定麻醉计划方面的性能,尤其是准确率与模型间一致性,并评估它们与专家共识组的契合度。

方法

共有41名有严重心脏病史的患者,其病例资料来自真实医疗记录并经过标准化处理,由ChatGPT、DeepSeek和Grok这三款模型对其进行分析。这些模型的输出结果会与由5位资深麻醉师组成的专家共识组所制定的结构化参考标准进行对比。研究通过Krippendorff’s α系数和Cohen’s κ系数来分析一致性及准确率,同时结合定性主题分析方法进行进一步研究。

结果

在ASA分级方面,DeepSeek的准确率最高,为73.2%,其次是Grok的70.7%,ChatGPT则为58.5%。在NYHA功能分级和RCRI评分中,Grok在两项任务中的准确率均最高,均为75.6%,而ChatGPT的准确率最低,为46.3%。在肺部风险评估方面,Grok的准确率为80.5%,DeepSeek为78.0%,均高于ChatGPT的51.2%。不同评估任务中,模型间以及模型与专家之间的契合度存在差异,从较小到较大不等。所有模型都倾向于推荐全身麻醉,这一比例超过85%,并且都过度强调对有创血压和中心静脉压的监测,而没有任何模型提到使用双频指数进行监测。

结论

这项探索性研究表明,目前的大型语言模型在复杂心脏病例的术前规划方面与专家共识的契合度尚不尽如人意。虽然它们还不能直接用于临床,但其基于规则的结构性推理框架可在专家指导下作为辅助检查清单或第二意见参考工具。未来需要开展多中心验证研究,使用多样且高质量的数据集以及标准化的临床评估指标,以此优化模型训练,提升模型的通用性,并进一步验证其在临床中的应用价值。

相关新闻
生物通微信公众号
生物通新浪微博
微信
新浪微博
我要投稿
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热搜:大型语言模型|专家共识|非心脏手术|麻醉评估|准确率差异|双重监测fail

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号