人工智能在麻醉前教育中的应用:ChatGPT与Google Gemini的内容质量、可读性与情感分析比较
《BMC Anesthesiology》:Artificial intelligence in anesthesia: comparison of the utility of ChatGPT v/s google gemini large language models in pre-anesthetic education: content, readability and sentiment analysis
【字体:
大
中
小
】
时间:2025年11月20日
来源:BMC Anesthesiology 2.6
编辑推荐:
本研究针对大型语言模型(LLMs)在麻醉前患者教育中的可靠性问题,由麻醉科专家团队设计,系统对比了ChatGPT与Google Gemini在腹腔镜胆囊切除术患者教育中的表现。结果显示,ChatGPT在信息准确性与全面性上显著优于Gemini(OR=2.32, 2.38, p<0.001),而Gemini生成内容更易读(FRES评分更高,p=0.04)且情感表达更丰富。研究表明,两类模型可作为临床咨询的辅助工具,但需结合专业指导,为AI在围术期教育的优化应用提供实证依据。
在医疗人工智能快速发展的今天,如何为患者提供准确、易懂且情感适宜的术前教育已成为临床实践的重要挑战。传统患者教育材料往往存在专业术语过多、内容更新滞后或缺乏互动性等问题,而近年来兴起的大型语言模型(Large Language Models, LLMs)为这一领域带来了新可能。然而,这些模型在生成医学信息时是否兼具专业性、安全性与可读性,仍需系统评估。为此,Sharma等学者在《BMC Anesthesiology》发表了一项前瞻性观察研究,首次针对ChatGPT和Google Gemini在腹腔镜胆囊切除术麻醉前教育中的表现进行了多维度比较。
研究团队通过匿名问卷收集了68条麻醉医师提交的常见患者问题,经专家小组投票筛选出13条高相关性项目,涵盖术前评估、麻醉方式选择、禁食要求、术中风险及术后恢复等核心领域。由20名具有5年以上经验的麻醉医师对两类模型的回复进行盲法评分,采用5级李克特量表从准确性、全面性、清晰度及安全性四个维度评估。同时,通过Flesch-Kincaid等级指数(Flesch-Kincaid Grade Level, FKGL)、Flesch阅读易度评分(Flesch Reading Ease Score, FRES)等工具分析文本可读性,并利用Bing词典与NRC情感词典进行情感极性及情绪分类分析。统计学处理采用混合效应序数回归模型,以控制评分者与问题间的随机效应。
ChatGPT在准确性(OR=2.32, 95%CI 1.62-3.32)和全面性(OR=2.38, 95%CI 1.67-3.37)上均显著优于Gemini(p<0.001),但在清晰度(OR=1.05)与安全性(OR=1.01)上无显著差异。值得注意的是,所有回复均未出现误导性或有害内容,表明两类模型在基础安全性上表现可靠。
Gemini生成的文本更易于患者理解,其FKGL评分显著低于ChatGPT(11.55 vs. 13.01, p=0.04),FRES评分更高(38.77 vs. 31.78, p=0.04)。情感分析显示,Gemini回复包含更广泛的情感词汇(如信任、喜悦、悲伤),而ChatGPT的语调更为中立。
各领域的评分者间信度均较低(Krippendorff's α=0.23–0.46),提示主观评分易受个体临床经验差异影响,未来需结合客观指标优化评估体系。
本研究首次实证比较了ChatGPT与Gemini在麻醉前教育中的性能差异,揭示了两类模型的互补特性:ChatGPT长于提供专业详实的医学信息,而Gemini更擅长生成易读且富有情感共鸣的内容。这一发现为临床工作者选择AI辅助工具提供了依据——在需要高精度信息的场景下可优先选用ChatGPT,而在患者沟通或普及性教育中Gemini或更具优势。然而,模型仍存在局限性,如可读性未达公众健康材料推荐标准(FRES>60),且未进行患者端理解度验证。未来需通过多中心研究结合真实患者反馈,进一步优化LLMs在围术期教育中的部署策略。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号