大型语言模型在回答患者关于前交叉韧带撕裂相关问题的准确性如何?一项比较研究

《The Knee》:How accurately do large language models answer patient questions on anterior cruciate ligament tears? A comparative study

【字体: 时间:2025年11月20日 来源:The Knee 1.6

编辑推荐:

  本研究系统评估了ChatGPT-4、Gemini 2.0、Llama 3.1、DeepSeek-V3和Grok 3在回答14个ACL损伤患者常见问题上的准确性。骨科专家采用五级Likert量表评分,结果显示DeepSeek(3.61)和Grok(3.59)得分显著高于Llama(3.25,P<0.05)。所有模型平均准确率≥3分(多为准确),但存在性能差异,提示模型选择对医疗信息质量至关重要。

  人工智能技术正在迅速改变医疗领域的应用,其中大型语言模型(LLMs)在患者教育和信息提供方面展现出巨大的潜力。随着这些模型的普及,如何确保其生成内容的准确性成为医疗行业关注的重点。本文探讨了五种主流的LLMs——ChatGPT-4、Gemini 2.0、Llama 3.1、DeepSeek-V3和Grok 3,在回答与前交叉韧带(ACL)撕裂相关的常见患者问题时的表现差异。

ACL撕裂是一种常见的运动创伤,尤其在年轻、活跃的人群中发生率较高,这类人群往往更倾向于通过数字渠道获取健康信息。因此,确保AI生成的信息准确且易于理解对于患者决策至关重要。研究团队通过系统化的网络搜索,整理出14个与ACL撕裂相关的问题,这些问题涵盖了预防、治疗和康复等多个方面。每个问题都分别提交给上述五种LLMs,由四位认证的骨科和创伤外科专家进行评估,采用五点李克特量表对准确性进行评分,同时记录每条回复的字数作为可读性的一个简要指标。

评估结果显示,所有模型在平均准确性评分上均达到3分或以上,意味着它们的回答在大多数情况下是准确的。然而,不同模型之间的表现存在显著差异。DeepSeek和Grok的平均准确性评分分别为3.61和3.59,明显高于Llama的3.25(p < 0.05)。相比之下,ChatGPT和Gemini的平均评分分别为3.48和3.52,略逊于DeepSeek和Grok。值得注意的是,Llama生成的回答最短,且在部分问题上评分较低,这可能与其内容的简洁性有关,而DeepSeek和Grok则提供了更详细的信息,从而在准确性上表现更优。

从可读性角度来看,模型生成的回答长度与信息的详细程度之间存在一定的关联。Grok和DeepSeek生成的回答字数较多,这表明它们可能更倾向于提供全面的医学信息,而Llama的回答较短,可能在信息深度上有所欠缺。尽管字数并不完全等同于可读性,但在研究中被用作一个简化的指标。这一发现暗示着在医疗信息生成中,信息的详尽性与准确性之间可能存在某种权衡关系。

此外,研究还指出,虽然所有模型生成的信息在专家评估中都被认为是基本准确且安全的,但不同模型在某些具体问题上的表现仍存在差异。例如,在回答“ACL撕裂是否需要手术”这一问题时,Gemini达到了满分4分,而Llama则未能获得满分。同样,在“如何预防ACL损伤”这一问题上,Gemini和DeepSeek均获得满分,而Llama则在该问题上得分较低。这些结果表明,尽管整体表现良好,但在某些具体问题上,模型之间的差异可能影响患者对信息的理解和接受程度。

研究团队强调,当前的评估方法虽然能够提供关于模型性能的初步见解,但缺乏基于指南的验证,这可能限制了结果在临床准确性方面的解释。未来的研究不仅需要进一步考察AI生成内容的准确性,还应评估患者的理解程度和信息的实用性。这种评估可以通过正式的可读性分析和以用户为中心的测试来实现,从而更全面地衡量AI在医疗教育中的实际应用价值。

值得注意的是,尽管所有模型都提供了相对准确的信息,但它们在信息表达方式、语言复杂度和深度方面存在差异。例如,Gemini在多个问题上获得了满分,显示出其在某些领域内的卓越表现,但整体排名中仅处于中等位置。这说明即使在某些特定问题上表现优异,模型在整体上仍需保持一致性。同样,Llama虽然在某些问题上得分较低,但其简洁的回答可能更适合特定的患者群体,尤其是那些对信息长度有较高要求的用户。

从研究结果来看,DeepSeek和Grok在整体准确性上表现最佳,这可能与其在生成内容时能够提供更详细的医学解释有关。相比之下,Llama的回答虽然简短,但可能缺乏足够的细节,导致其在某些问题上的评分较低。这一发现对于医疗AI的应用具有重要意义,因为它提示我们在选择模型时需要综合考虑其准确性、可读性和信息的全面性。

此外,研究还指出,虽然AI可以作为患者教育的重要工具,但其生成的信息仍需经过严格的临床验证。目前,大多数研究主要集中在AI模型的准确性上,而较少关注患者的实际理解和接受程度。因此,未来的AI医疗应用不仅需要确保信息的准确性,还需要通过用户反馈和临床测试来评估其在实际场景中的效果。

总的来说,这项研究揭示了当前主流LLMs在回答ACL相关问题时的性能差异,为医疗AI的应用提供了重要的参考。尽管所有模型在大多数问题上表现良好,但选择合适的模型对于确保患者获得准确、全面且易于理解的信息至关重要。未来的研究应进一步探索如何优化AI模型的性能,使其更好地服务于医疗教育和患者咨询的需求。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号