AI聊天机器人对基底细胞癌常见问题的回答质量与可读性评估

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年08月30日 来源：Clinical Surgical Oncology

编辑推荐：

　　随着AI聊天机器人成为患者获取健康信息的重要渠道，本研究系统评估了ChatGPT、Gemini、Grok和DeepSeek四种主流AI模型对基底细胞癌(BCC)常见问题的回答质量。通过DISCERN量表和可读性分析发现，Gemini在信息准确性(34.1分)和参考文献完整性上表现最优，但所有模型文本难度均超出医学推荐的6年级水平(FKGL>8.5)。该研究为优化AI医疗咨询工具提供了重要依据。

在数字化医疗时代，AI聊天机器人正逐渐成为患者获取健康信息的新渠道。基底细胞癌(Basal Cell Carcinoma, BCC)作为全球最高发的皮肤恶性肿瘤，每年仅美国就有360万新发病例。虽然这种起源于表皮基底细胞的肿瘤转移率较低，但延误治疗可能导致严重的局部组织损伤。令人担忧的是，现有研究表明，网络健康信息普遍存在专业性过强、可读性不足的问题——美国医学协会建议患者教育材料应控制在6年级阅读水平，但多数内容远超普通公众理解能力。

针对这一矛盾点，Rickvir S. Sidhu和Arrane Selvamogan团队在《Clinical Surgical Oncology》发表的研究，首次系统评估了主流AI聊天机器人对BCC常见问题的应答表现。研究选取ChatGPT(GPT-4)、Gemini 2.5、Grok 3和DeepSeek R1四种模型，通过权威医学指南与谷歌趋势确定8个核心问题，采用改良DISCERN量表和Flesch-Kincaid Grade Level(FKGL)等工具，从信息质量和可读性两个维度展开分析。

关键技术方法包括：1)基于美国皮肤病学会等权威机构的8个BCC高频问题构建评估框架；2)采用改良DISCERN量表(8项/40分制)和全球质量评分(GQS)评估信息质量；3)通过Flesch Reading Ease Score(FRES)和FKGL量化文本可读性；4)使用RStudio 4.5.1进行统计学分析，包括ICC检验和Kruskal-Wallis检验。

3.1 可读性评估

所有AI模型的平均FKGL得分在8.49(ChatGPT)至9.98(Gemini)之间，对应美国高中1-2年级阅读水平，显著高于医学界推荐的6年级标准。FRES评分显示，ChatGPT(52.5±9.94)可读性最佳，但仍属于"较难"范畴(50-60分对应10-12年级)。

3.2 信息质量分析

Gemini以34.1分(满分40)的DISCERN成绩显著领先(p<0.001)，主要优势在于自动引用参考文献。值得注意的是，当采用标准提问(未明确要求引证)时，仅Gemini能保持稳定的文献引用习惯，其他模型如ChatGPT(24.2分)在无特别提示时较少提供来源。

3.3 整体质量感知

全球质量评分(GQS)显示所有模型均获4分以上(5分制)，表明从用户体验角度，不同AI生成的回答都具有较好的表面可信度。这种"质量感知均质化"现象提示，普通用户可能难以辨别各平台应答质量的实质差异。

讨论部分指出三个关键发现：首先，AI模型在未特别提示时普遍缺乏主动引证意识，这可能助长健康错误信息的传播；其次，现有模型的文本复杂度仍构成健康素养障碍，特别是对教育水平较低人群；最后，提示词工程(prompt engineering)显著影响输出质量——当明确要求"提供证据"时，ChatGPT等模型的引证率可提升至78%。

这项研究为AI医疗咨询工具的优化指明了方向：一方面需要开发更智能的引证机制，另一方面应加强健康素养适应性算法。作者建议未来研究应纳入真实患者进行理解度测试，并探索多模态(如图文结合)输出对可读性的提升效果。随着欧盟AI法案等监管框架的完善，这项基准研究为制定医疗AI质量标准提供了重要参考依据。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号