评估大型语言模型对美国骨科医师学会(AAOS)膝关节骨关节炎指南的遵循程度:ChatGPT与NotebookLM的对比研究

《Indian Journal of Orthopaedics》:Evaluating Large Language Model Adherence to AAOS Knee Osteoarthritis Guidelines: A Comparative Study of ChatGPT and NotebookLM

【字体: 时间:2025年12月08日 来源:Indian Journal of Orthopaedics 1.1

编辑推荐:

  大语言模型在骨科指南中的应用评估显示,ChatGPT和NotebookLM均能有效遵循AAOS膝关节骨关节炎指南,但前者在推荐强度准确性上更优,后者在上下文解释更全面,提示结构化设计可提升AI在证据转化与教育中的辅助作用。

  

摘要

目的

本研究评估了大型语言模型(LLMs),特别是ChatGPT(OpenAI)和NotebookLM(Google),在遵循骨科指南方面的程度。研究旨在确定人工智能生成的推理是否与2021-2022年美国骨科外科医师学会(AAOS)关于膝关节骨关节炎(OA)的临床实践指南保持一致。

方法

本研究采用混合方法设计,结合了定量一致性评分和定性内容分析。从AAOS指南中提取了33个涉及非关节置换和手术管理的决策点。向每个模型提供了结构化的“人群-干预-比较-结果”(PICO)问题。两名骨科外科医生独立使用四维评分标准(0-4分)对所有输出进行了评估,评估标准包括准确性、证据推理、附加信息以及知识整合能力。一致性分为完全一致(4分)、部分一致(3分)或不一致(≤2分),分歧通过共识解决。评分者间的可靠性几乎达到完美(加权κ值=0.87)。

结果

ChatGPT的平均综合得分为3.67±0.92分,NotebookLM为3.55±0.87分,两种模型之间没有显著差异(p=0.18)。ChatGPT的84.8%的回答与AAOS建议完全一致,NotebookLM为75.8%。两种模型在证据充足的领域(如非甾体抗炎药治疗、氨甲环酸使用和减肥咨询)表现一致。而在证据有限或依赖技术的领域,一致性有所下降。部分一致的情况反映了证据限定条件的遗漏,而不一致的回答则表现为过度夸大或推测性的解释。

结论

两种大型语言模型均表现出与基于证据的骨科推理高度一致。ChatGPT在遵循建议强度方面略胜一筹,而NotebookLM则提供了更广泛的背景解释。结构化、以指南为导向的问题设计可能有助于提高人工智能推理的一致性,并支持LLMs作为证据转化和骨科教育辅助工具的潜在作用。

目的

本研究评估了大型语言模型(LLMs),特别是ChatGPT(OpenAI)和NotebookLM(Google),在遵循骨科指南方面的程度。研究旨在确定人工智能生成的推理是否与2021-2022年美国骨科外科医师学会(AAOS)关于膝关节骨关节炎(OA)的临床实践指南保持一致。

方法

本研究采用混合方法设计,结合了定量一致性评分和定性内容分析。从AAOS指南中提取了33个涉及非关节置换和手术管理的决策点。向每个模型提供了结构化的“人群-干预-比较-结果”(PICO)问题。两名骨科外科医生独立使用四维评分标准(0-4分)对所有输出进行了评估,评估标准包括准确性、证据推理、附加信息以及知识整合能力。一致性分为完全一致(4分)、部分一致(3分)或不一致(≤2分),分歧通过共识解决。评分者间的可靠性几乎达到完美(加权κ值=0.87)。

结果

ChatGPT的平均综合得分为3.67±0.92分,NotebookLM为3.55±0.87分,两种模型之间没有显著差异(p=0.18)。ChatGPT的84.8%的回答与AAOS建议完全一致,NotebookLM为75.8%。两种模型在证据充足的领域(如非甾体抗炎药治疗、氨甲环酸使用和减肥咨询)表现一致。而在证据有限或依赖技术的领域,一致性有所下降。部分一致的情况反映了证据限定条件的遗漏,而不一致的回答则表现为过度夸大或推测性的解释。

结论

两种大型语言模型均表现出与基于证据的骨科推理高度一致。ChatGPT在遵循建议强度方面略胜一筹,而NotebookLM则提供了更广泛的背景解释。结构化、以指南为导向的问题设计可能有助于提高人工智能推理的一致性,并支持LLMs作为证据转化和骨科教育辅助工具的潜在作用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号