
-
生物通官微
陪你抓住生命科技
跳动的脉搏
大型语言模型在髋关节镜患者问答中的响应性能与可读性比较研究
【字体: 大 中 小 】 时间:2025年08月02日 来源:Arthroscopy, Sports Medicine,and Rehabilitation CS2.7
编辑推荐:
为解决LLM(大型语言模型)在髋关节镜患者问答中响应质量与可读性差异的问题,Mass General Brigham骨科运动医学部的研究人员对比了ChatGPT 3.5、Microsoft Co-Pilot和Google Gemini的性能。结果显示,三者响应准确性相似(P=0.4808),但20%回答存在错误,且ChatGPT可读性显著较差(FKGL 11.0 vs Gemini 6.6,P=0.0026)。该研究为患者选择医疗信息工具提供了循证依据。
在互联网成为患者获取医疗信息主要渠道的今天,大型语言模型(LLM)如ChatGPT、Google Gemini等正迅速崛起为新型"数字医生"。然而,这些AI工具在专业医疗领域——尤其是髋关节镜这类新兴手术——的回答质量究竟如何?它们的答案是否足够准确易懂?这些问题直接关系到患者能否获得可靠的术前术后指导。
Mass General Brigham骨科运动医学部(Department of Orthopaedic Surgery, Mass General Brigham)的研究团队针对这一痛点展开研究。他们选取了10个髋关节镜高频患者问题,让三大主流LLM(ChatGPT 3.5、Microsoft Co-Pilot和Google Gemini)"应试",并邀请两位高年资髋关节镜专家进行盲评。通过4级Likert量表(1=优秀至4=不合格)评估回答质量,3级量表比较模型偏好,同时采用Flesch-Kincaid Grade Level(FKGL)和Flesch Reading Ease(FRE)量化可读性。
研究结果显示三大模型在准确性上难分伯仲(均值:ChatGPT 3.0±1.0 vs Microsoft 2.9±1.1 vs Gemini 2.6±1.1,P=0.4808),但20%的回答存在需要重大修正的错误。值得注意的是,ChatGPT的回答如同"医学教科书",FKGL达11.0(相当于高中三年级阅读水平),显著高于Gemini(6.6,小学六年级)和Co-Pilot(8.6,初中二年级)(P=0.0026)。而Gemini在专家偏好评分中拔得头筹,50%回答被评为最佳。
这项发表在《Arthroscopy, Sports Medicine,and Rehabilitation》的研究揭示了LLM在医疗咨询中的双面性:它们能提供基本准确的髋关节镜信息,但需要医生"二次加工";虽然Google Gemini和Microsoft Co-Pilot更符合NIH推荐的6-8年级阅读标准,但所有模型都存在错误风险。这提示临床医生应主动引导患者正确使用AI工具,同时呼吁LLM开发者优化医疗内容的可读性验证机制。在人工智能重塑医疗信息生态的当下,这项研究为平衡技术创新与患者安全提供了重要循证依据。
生物通微信公众号
知名企业招聘