大语言模型解答颈部肿块患者常见问题:可靠度与准确度大揭秘
【字体:
大
中
小
】
时间:2025年05月02日
来源:European Archives of Oto-Rhino-Laryngology 1.9
编辑推荐:
为评估大语言模型(LLMs)回答成人颈部肿块患者常见问题的可靠性与准确性,研究人员向 ChatGPT、Claude 和 Gemini 提出 24 个相关问题并评估。结果显示 LLMs 可靠性和准确性较高,但仍有不足。这表明其可作辅助,不能替代专业医疗建议。
目的:评估大语言模型(LLMs)在回答成人颈部肿块患者常见问题时的可靠性和准确性。
方法:从美国耳鼻咽喉 - 头颈外科学会选取 24 个问题,分别向 ChatGPT、Claude 和 Gemini 提问。由 5 名独立的耳鼻咽喉科医生依据准确性、全面性、误导性信息、资源质量、指南引用以及总体可靠性这 6 项标准对回答进行评估。统计分析采用 Fisher 精确检验和 Fleiss 卡帕(κ)检验。
结果:所有模型都展现出较高的可靠性(91.7 - 100%)。付费版 GPT 和 Gemini 的准确性最高(95.8%)。全面性差异显著(p = 0.012),Gemini 得分最低(62.5%)。资源质量方面,Claude 为 58.3%,付费版 GPT 达 100% 。GPT 系列模型的指南引用率最高(50%),Gemini 最低(16.7%)。误导性信息很少见(0 - 16.7%)。5 名评审者之间的评分者间信度近乎完美(κ = 0.95)。
结论:大语言模型在颈部肿块患者教育方面表现出较高的可靠性和准确性,付费版本表现略优。尽管其作为教育工具前景良好,但由于对指南的遵循存在差异且偶尔出现错误信息,它们应作为专业医学建议的补充,而非替代品。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号