基于大语言模型评估日本在线乳腺癌治疗信息质量：ChatGPT、Claude 与专家评价的对比研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年05月23日 来源：Breast Cancer 4.0

编辑推荐：

　　互联网是乳腺癌患者获取健康信息的主要来源，但内容质量参差不齐。研究人员开展大语言模型（LLMs）评估在线日本乳腺癌治疗信息质量的研究，对比 ChatGPT、Claude 的 DISCERN 得分与专家评分，发现 LLMs 评估与专家中度至高度相关，提示其辅助评估潜力。

背景：互联网是乳腺癌患者获取健康信息的主要渠道，但在线内容质量差异显著。本研究旨在通过计算大语言模型（LLMs）ChatGPT 和 Claude 的 DISCERN 评分，并与专家评分对比，评估其评估日本在线乳腺癌治疗信息质量的能力。
方法：使用 DISCERN 工具分析 60 个日本乳腺癌治疗（手术、化疗、免疫治疗）相关网页，由 ChatGPT、Claude 及两名专家评分，评估 LLMs 评估一致性、与专家评估的相关性，以及 DISCERN 评分与谷歌搜索排名、内容长度的关系。
结果：LLMs 评估一致性高，与专家评估呈中度至强相关（ChatGPT vs 专家：r⁼0.65；Claude vs 专家：r⁼0.68），且评分略高于专家。化疗页面质量得分最高，其次为手术和免疫治疗。谷歌搜索排名与 DISCERN 评分呈弱负相关，内容长度与质量评分呈中度正相关（r⁼0.45）。
结论：本研究显示 LLM 辅助评估在评估在线健康信息质量方面的潜力，同时强调人类专业知识的重要性。LLMs 可高效处理大量健康信息，但需结合人类洞见进行全面评估，这些发现对提高乳腺癌治疗信息的可及性和可靠性具有启示意义。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号