大语言模型解答颈部肿块患者常见问题:可靠度与准确度大揭秘

【字体: 时间:2025年05月02日 来源:European Archives of Oto-Rhino-Laryngology 1.9

编辑推荐:

  为评估大语言模型(LLMs)回答成人颈部肿块患者常见问题的可靠性与准确性,研究人员向 ChatGPT、Claude 和 Gemini 提出 24 个相关问题并评估。结果显示 LLMs 可靠性和准确性较高,但仍有不足。这表明其可作辅助,不能替代专业医疗建议。

  目的:评估大语言模型(LLMs)在回答成人颈部肿块患者常见问题时的可靠性和准确性。
方法:从美国耳鼻咽喉 - 头颈外科学会选取 24 个问题,分别向 ChatGPT、Claude 和 Gemini 提问。由 5 名独立的耳鼻咽喉科医生依据准确性、全面性、误导性信息、资源质量、指南引用以及总体可靠性这 6 项标准对回答进行评估。统计分析采用 Fisher 精确检验和 Fleiss 卡帕(κ)检验。
结果:所有模型都展现出较高的可靠性(91.7 - 100%)。付费版 GPT 和 Gemini 的准确性最高(95.8%)。全面性差异显著(p = 0.012),Gemini 得分最低(62.5%)。资源质量方面,Claude 为 58.3%,付费版 GPT 达 100% 。GPT 系列模型的指南引用率最高(50%),Gemini 最低(16.7%)。误导性信息很少见(0 - 16.7%)。5 名评审者之间的评分者间信度近乎完美(κ = 0.95)。
结论:大语言模型在颈部肿块患者教育方面表现出较高的可靠性和准确性,付费版本表现略优。尽管其作为教育工具前景良好,但由于对指南的遵循存在差异且偶尔出现错误信息,它们应作为专业医学建议的补充,而非替代品。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号