大型语言模型在代谢减重手术中的表现评估:精准医疗教育的新挑战与机遇
《Obesity Surgery》:Performance of Large Language Models in Metabolic Bariatric Surgery: a Comparative Study
【字体:
大
中
小
】
时间:2025年12月12日
来源:Obesity Surgery 3.1
编辑推荐:
本研究针对LLMs在代谢减重手术(MBS)领域准确性不足的问题,系统评估了ChatGPT-4o、Gemini等六款模型对100道循证问题的应答能力。结果显示,LLMs在指南明确的领域(如手术禁忌症)表现最佳(准确率78.7%),但在需临床决策的环节(如术前准备)显著受限(准确率52.0%)。研究强调LLMs可作为MBS教育的辅助工具,但需结合专家指导以确保临床安全性,为AI整合进外科培训提供了关键依据。
随着人工智能技术的迅猛发展,大型语言模型(LLMs)已逐步渗透到医疗教育的各个角落。在代谢减重手术(MBS)这一专业领域,年轻外科医生常面临教育资源有限、临床经验不足的挑战,而LLMs因其强大的信息处理和语言生成能力,被视为潜在的解决方案。然而,这些模型在复杂临床场景中的准确性和可靠性究竟如何?是否存在误导风险?为了回答这些问题,由埃及亚历山大大学领衔的研究团队开展了一项开创性研究,系统性评估了六款主流LLMs在MBS知识应答中的表现,成果发表于权威期刊《Obesity Surgery》。
研究团队设计了一套包含100道循证问题的评估体系,涵盖手术技术、适应症、术后管理等六大主题,并邀请国际MBS专家团队通过共识机制确立标准答案。在严格控制测试条件的背景下,ChatGPT-4o以66.0%的准确率位列榜首,而DeepSeek(60.0%)暂居末位。进一步分析发现,LLMs在指南明确的领域(如手术禁忌症)表现稳健,准确率高达78.7%;但在需要灵活判断的环节(如术前饮食方案制定)则暴露出明显短板,准确率骤降至52.0%。尤为值得注意的是,模型对二元选择题(如“是/否”)的应答优于多选题型,暗示其更擅长事实检索而非复杂推理。
本研究采用横断面验证设计,通过专家共识构建黄金标准答案库,使用Fleiss’ Kappa评估专家间一致性(κ=0.742)。六款LLMs(ChatGPT-3.5/4o、Gemini、Copilot、GROK、DeepSeek)在统一环境下应答100道MBS问题,通过准确率、Kappa值和Jaccard相似系数量化性能差异,并利用Friedman检验及事后配对分析进行统计比较。
- 1.
六大模型整体准确率无统计学差异(p=0.662),但新一代模型(如ChatGPT-4o)与专家共识的吻合度更高(κ=0.446)。
- 2.
适应症/禁忌症领域准确率最高(78.7%),而术前准备领域最低(52.0%),反映LLMs对标准化指南的依赖性强。
- 3.
33%的问题被超过半数模型答错,集中分布于术后护理(如咖啡因摄入时机)和手术技术细节(如Roux-en-Y胃旁路术的肠袢长度)等需临床经验的场景。
- 4.
二元选择题准确率(69.1%)显著高于多选题(62.0%),印证LLMs在复杂推理中的局限性。
本研究首次多模型横向对比证实,LLMs在MBS教育中具备辅助潜力,尤其适用于指南强化学习,但其临床决策支持能力仍待提升。专家指出,模型误差多源于对个体化临床场景的理解不足,如术后营养方案调整等需动态判断的环节。未来需通过增强医学语料训练、开发临床决策校验机制,推动LLMs从“知识库”向“智能顾问”演进。当前阶段,LLMs应作为传统教育的补充而非替代,外科培训课程需纳入AI批判性应用教学,以培养年轻医生对技术输出的甄别能力。正如研究者所言:“AI不会取代外科医生,但善用AI的医生将更具竞争力。”
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号