编辑推荐:
互联网是乳腺癌患者获取健康信息的主要来源,但内容质量参差不齐。研究人员开展大语言模型(LLMs)评估在线日本乳腺癌治疗信息质量的研究,对比 ChatGPT、Claude 的 DISCERN 得分与专家评分,发现 LLMs 评估与专家中度至高度相关,提示其辅助评估潜力。
背景:互联网是乳腺癌患者获取健康信息的主要渠道,但在线内容质量差异显著。本研究旨在通过计算大语言模型(LLMs)ChatGPT 和 Claude 的 DISCERN 评分,并与专家评分对比,评估其评估日本在线乳腺癌治疗信息质量的能力。
方法:使用 DISCERN 工具分析 60 个日本乳腺癌治疗(手术、化疗、免疫治疗)相关网页,由 ChatGPT、Claude 及两名专家评分,评估 LLMs 评估一致性、与专家评估的相关性,以及 DISCERN 评分与谷歌搜索排名、内容长度的关系。
结果:LLMs 评估一致性高,与专家评估呈中度至强相关(ChatGPT vs 专家:r=0.65;Claude vs 专家:r=0.68),且评分略高于专家。化疗页面质量得分最高,其次为手术和免疫治疗。谷歌搜索排名与 DISCERN 评分呈弱负相关,内容长度与质量评分呈中度正相关(r=0.45)。
结论:本研究显示 LLM 辅助评估在评估在线健康信息质量方面的潜力,同时强调人类专业知识的重要性。LLMs 可高效处理大量健康信息,但需结合人类洞见进行全面评估,这些发现对提高乳腺癌治疗信息的可及性和可靠性具有启示意义。