
-
生物通官微
陪你抓住生命科技
跳动的脉搏
评估大型语言模型对美国骨科医师学会(AAOS)膝关节骨关节炎指南的遵循程度:ChatGPT与NotebookLM的对比研究
《Indian Journal of Orthopaedics》:Evaluating Large Language Model Adherence to AAOS Knee Osteoarthritis Guidelines: A Comparative Study of ChatGPT and NotebookLM
【字体: 大 中 小 】 时间:2025年12月08日 来源:Indian Journal of Orthopaedics 1.1
编辑推荐:
大语言模型在骨科指南中的应用评估显示,ChatGPT和NotebookLM均能有效遵循AAOS膝关节骨关节炎指南,但前者在推荐强度准确性上更优,后者在上下文解释更全面,提示结构化设计可提升AI在证据转化与教育中的辅助作用。
本研究评估了大型语言模型(LLMs),特别是ChatGPT(OpenAI)和NotebookLM(Google),在遵循骨科指南方面的程度。研究旨在确定人工智能生成的推理是否与2021-2022年美国骨科外科医师学会(AAOS)关于膝关节骨关节炎(OA)的临床实践指南保持一致。
本研究采用混合方法设计,结合了定量一致性评分和定性内容分析。从AAOS指南中提取了33个涉及非关节置换和手术管理的决策点。向每个模型提供了结构化的“人群-干预-比较-结果”(PICO)问题。两名骨科外科医生独立使用四维评分标准(0-4分)对所有输出进行了评估,评估标准包括准确性、证据推理、附加信息以及知识整合能力。一致性分为完全一致(4分)、部分一致(3分)或不一致(≤2分),分歧通过共识解决。评分者间的可靠性几乎达到完美(加权κ值=0.87)。
ChatGPT的平均综合得分为3.67±0.92分,NotebookLM为3.55±0.87分,两种模型之间没有显著差异(p=0.18)。ChatGPT的84.8%的回答与AAOS建议完全一致,NotebookLM为75.8%。两种模型在证据充足的领域(如非甾体抗炎药治疗、氨甲环酸使用和减肥咨询)表现一致。而在证据有限或依赖技术的领域,一致性有所下降。部分一致的情况反映了证据限定条件的遗漏,而不一致的回答则表现为过度夸大或推测性的解释。
两种大型语言模型均表现出与基于证据的骨科推理高度一致。ChatGPT在遵循建议强度方面略胜一筹,而NotebookLM则提供了更广泛的背景解释。结构化、以指南为导向的问题设计可能有助于提高人工智能推理的一致性,并支持LLMs作为证据转化和骨科教育辅助工具的潜在作用。
本研究评估了大型语言模型(LLMs),特别是ChatGPT(OpenAI)和NotebookLM(Google),在遵循骨科指南方面的程度。研究旨在确定人工智能生成的推理是否与2021-2022年美国骨科外科医师学会(AAOS)关于膝关节骨关节炎(OA)的临床实践指南保持一致。
本研究采用混合方法设计,结合了定量一致性评分和定性内容分析。从AAOS指南中提取了33个涉及非关节置换和手术管理的决策点。向每个模型提供了结构化的“人群-干预-比较-结果”(PICO)问题。两名骨科外科医生独立使用四维评分标准(0-4分)对所有输出进行了评估,评估标准包括准确性、证据推理、附加信息以及知识整合能力。一致性分为完全一致(4分)、部分一致(3分)或不一致(≤2分),分歧通过共识解决。评分者间的可靠性几乎达到完美(加权κ值=0.87)。
ChatGPT的平均综合得分为3.67±0.92分,NotebookLM为3.55±0.87分,两种模型之间没有显著差异(p=0.18)。ChatGPT的84.8%的回答与AAOS建议完全一致,NotebookLM为75.8%。两种模型在证据充足的领域(如非甾体抗炎药治疗、氨甲环酸使用和减肥咨询)表现一致。而在证据有限或依赖技术的领域,一致性有所下降。部分一致的情况反映了证据限定条件的遗漏,而不一致的回答则表现为过度夸大或推测性的解释。
两种大型语言模型均表现出与基于证据的骨科推理高度一致。ChatGPT在遵循建议强度方面略胜一筹,而NotebookLM则提供了更广泛的背景解释。结构化、以指南为导向的问题设计可能有助于提高人工智能推理的一致性,并支持LLMs作为证据转化和骨科教育辅助工具的潜在作用。
生物通微信公众号
知名企业招聘