评估大型语言模型对美国骨科医师学会（AAOS）膝关节骨关节炎指南的遵循程度：ChatGPT与NotebookLM的对比研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Indian Journal of Orthopaedics》：Evaluating Large Language Model Adherence to AAOS Knee Osteoarthritis Guidelines: A Comparative Study of ChatGPT and NotebookLM

【字体：大中小】 时间：2025年12月08日 来源：Indian Journal of Orthopaedics 1.1

编辑推荐：

　　大语言模型在骨科指南中的应用评估显示，ChatGPT和NotebookLM均能有效遵循AAOS膝关节骨关节炎指南，但前者在推荐强度准确性上更优，后者在上下文解释更全面，提示结构化设计可提升AI在证据转化与教育中的辅助作用。

摘要

目的

本研究评估了大型语言模型（LLMs），特别是ChatGPT（OpenAI）和NotebookLM（Google），在遵循骨科指南方面的程度。研究旨在确定人工智能生成的推理是否与2021-2022年美国骨科外科医师学会（AAOS）关于膝关节骨关节炎（OA）的临床实践指南保持一致。

方法

本研究采用混合方法设计，结合了定量一致性评分和定性内容分析。从AAOS指南中提取了33个涉及非关节置换和手术管理的决策点。向每个模型提供了结构化的“人群-干预-比较-结果”（PICO）问题。两名骨科外科医生独立使用四维评分标准（0-4分）对所有输出进行了评估，评估标准包括准确性、证据推理、附加信息以及知识整合能力。一致性分为完全一致（4分）、部分一致（3分）或不一致（≤2分），分歧通过共识解决。评分者间的可靠性几乎达到完美（加权κ值=0.87）。

结果

ChatGPT的平均综合得分为3.67±0.92分，NotebookLM为3.55±0.87分，两种模型之间没有显著差异（p=0.18）。ChatGPT的84.8%的回答与AAOS建议完全一致，NotebookLM为75.8%。两种模型在证据充足的领域（如非甾体抗炎药治疗、氨甲环酸使用和减肥咨询）表现一致。而在证据有限或依赖技术的领域，一致性有所下降。部分一致的情况反映了证据限定条件的遗漏，而不一致的回答则表现为过度夸大或推测性的解释。

结论

两种大型语言模型均表现出与基于证据的骨科推理高度一致。ChatGPT在遵循建议强度方面略胜一筹，而NotebookLM则提供了更广泛的背景解释。结构化、以指南为导向的问题设计可能有助于提高人工智能推理的一致性，并支持LLMs作为证据转化和骨科教育辅助工具的潜在作用。

目的

本研究评估了大型语言模型（LLMs），特别是ChatGPT（OpenAI）和NotebookLM（Google），在遵循骨科指南方面的程度。研究旨在确定人工智能生成的推理是否与2021-2022年美国骨科外科医师学会（AAOS）关于膝关节骨关节炎（OA）的临床实践指南保持一致。

方法

本研究采用混合方法设计，结合了定量一致性评分和定性内容分析。从AAOS指南中提取了33个涉及非关节置换和手术管理的决策点。向每个模型提供了结构化的“人群-干预-比较-结果”（PICO）问题。两名骨科外科医生独立使用四维评分标准（0-4分）对所有输出进行了评估，评估标准包括准确性、证据推理、附加信息以及知识整合能力。一致性分为完全一致（4分）、部分一致（3分）或不一致（≤2分），分歧通过共识解决。评分者间的可靠性几乎达到完美（加权κ值=0.87）。

结果

ChatGPT的平均综合得分为3.67±0.92分，NotebookLM为3.55±0.87分，两种模型之间没有显著差异（p=0.18）。ChatGPT的84.8%的回答与AAOS建议完全一致，NotebookLM为75.8%。两种模型在证据充足的领域（如非甾体抗炎药治疗、氨甲环酸使用和减肥咨询）表现一致。而在证据有限或依赖技术的领域，一致性有所下降。部分一致的情况反映了证据限定条件的遗漏，而不一致的回答则表现为过度夸大或推测性的解释。

结论

两种大型语言模型均表现出与基于证据的骨科推理高度一致。ChatGPT在遵循建议强度方面略胜一筹，而NotebookLM则提供了更广泛的背景解释。结构化、以指南为导向的问题设计可能有助于提高人工智能推理的一致性，并支持LLMs作为证据转化和骨科教育辅助工具的潜在作用。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号