人工智能在麻醉前教育中的应用：ChatGPT与Google Gemini的内容质量、可读性与情感分析比较

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《BMC Anesthesiology》：Artificial intelligence in anesthesia: comparison of the utility of ChatGPT v/s google gemini large language models in pre-anesthetic education: content, readability and sentiment analysis

【字体：大中小】 时间：2025年11月20日 来源：BMC Anesthesiology 2.6

编辑推荐：

　　本研究针对大型语言模型（LLMs）在麻醉前患者教育中的可靠性问题，由麻醉科专家团队设计，系统对比了ChatGPT与Google Gemini在腹腔镜胆囊切除术患者教育中的表现。结果显示，ChatGPT在信息准确性与全面性上显著优于Gemini（OR=2.32, 2.38, p<0.001），而Gemini生成内容更易读（FRES评分更高，p=0.04）且情感表达更丰富。研究表明，两类模型可作为临床咨询的辅助工具，但需结合专业指导，为AI在围术期教育的优化应用提供实证依据。

在医疗人工智能快速发展的今天，如何为患者提供准确、易懂且情感适宜的术前教育已成为临床实践的重要挑战。传统患者教育材料往往存在专业术语过多、内容更新滞后或缺乏互动性等问题，而近年来兴起的大型语言模型（Large Language Models, LLMs）为这一领域带来了新可能。然而，这些模型在生成医学信息时是否兼具专业性、安全性与可读性，仍需系统评估。为此，Sharma等学者在《BMC Anesthesiology》发表了一项前瞻性观察研究，首次针对ChatGPT和Google Gemini在腹腔镜胆囊切除术麻醉前教育中的表现进行了多维度比较。

研究方法概述

研究团队通过匿名问卷收集了68条麻醉医师提交的常见患者问题，经专家小组投票筛选出13条高相关性项目，涵盖术前评估、麻醉方式选择、禁食要求、术中风险及术后恢复等核心领域。由20名具有5年以上经验的麻醉医师对两类模型的回复进行盲法评分，采用5级李克特量表从准确性、全面性、清晰度及安全性四个维度评估。同时，通过Flesch-Kincaid等级指数（Flesch-Kincaid Grade Level, FKGL）、Flesch阅读易度评分（Flesch Reading Ease Score, FRES）等工具分析文本可读性，并利用Bing词典与NRC情感词典进行情感极性及情绪分类分析。统计学处理采用混合效应序数回归模型，以控制评分者与问题间的随机效应。

研究结果

内容质量分析

ChatGPT在准确性（OR=2.32, 95%CI 1.62-3.32）和全面性（OR=2.38, 95%CI 1.67-3.37）上均显著优于Gemini（p<0.001），但在清晰度（OR=1.05）与安全性（OR=1.01）上无显著差异。值得注意的是，所有回复均未出现误导性或有害内容，表明两类模型在基础安全性上表现可靠。

可读性与情感表达

Gemini生成的文本更易于患者理解，其FKGL评分显著低于ChatGPT（11.55 vs. 13.01, p=0.04），FRES评分更高（38.77 vs. 31.78, p=0.04）。情感分析显示，Gemini回复包含更广泛的情感词汇（如信任、喜悦、悲伤），而ChatGPT的语调更为中立。

评分者间一致性

各领域的评分者间信度均较低（Krippendorff's α=0.23–0.46），提示主观评分易受个体临床经验差异影响，未来需结合客观指标优化评估体系。

结论与意义

本研究首次实证比较了ChatGPT与Gemini在麻醉前教育中的性能差异，揭示了两类模型的互补特性：ChatGPT长于提供专业详实的医学信息，而Gemini更擅长生成易读且富有情感共鸣的内容。这一发现为临床工作者选择AI辅助工具提供了依据——在需要高精度信息的场景下可优先选用ChatGPT，而在患者沟通或普及性教育中Gemini或更具优势。然而，模型仍存在局限性，如可读性未达公众健康材料推荐标准（FRES>60），且未进行患者端理解度验证。未来需通过多中心研究结合真实患者反馈，进一步优化LLMs在围术期教育中的部署策略。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号