AI聊天机器人对基底细胞癌常见问题的回答质量与可读性评估

【字体: 时间:2025年08月30日 来源:Clinical Surgical Oncology

编辑推荐:

  随着AI聊天机器人成为患者获取健康信息的重要渠道,本研究系统评估了ChatGPT、Gemini、Grok和DeepSeek四种主流AI模型对基底细胞癌(BCC)常见问题的回答质量。通过DISCERN量表和可读性分析发现,Gemini在信息准确性(34.1分)和参考文献完整性上表现最优,但所有模型文本难度均超出医学推荐的6年级水平(FKGL>8.5)。该研究为优化AI医疗咨询工具提供了重要依据。

  

在数字化医疗时代,AI聊天机器人正逐渐成为患者获取健康信息的新渠道。基底细胞癌(Basal Cell Carcinoma, BCC)作为全球最高发的皮肤恶性肿瘤,每年仅美国就有360万新发病例。虽然这种起源于表皮基底细胞的肿瘤转移率较低,但延误治疗可能导致严重的局部组织损伤。令人担忧的是,现有研究表明,网络健康信息普遍存在专业性过强、可读性不足的问题——美国医学协会建议患者教育材料应控制在6年级阅读水平,但多数内容远超普通公众理解能力。

针对这一矛盾点,Rickvir S. Sidhu和Arrane Selvamogan团队在《Clinical Surgical Oncology》发表的研究,首次系统评估了主流AI聊天机器人对BCC常见问题的应答表现。研究选取ChatGPT(GPT-4)、Gemini 2.5、Grok 3和DeepSeek R1四种模型,通过权威医学指南与谷歌趋势确定8个核心问题,采用改良DISCERN量表和Flesch-Kincaid Grade Level(FKGL)等工具,从信息质量和可读性两个维度展开分析。

关键技术方法包括:1)基于美国皮肤病学会等权威机构的8个BCC高频问题构建评估框架;2)采用改良DISCERN量表(8项/40分制)和全球质量评分(GQS)评估信息质量;3)通过Flesch Reading Ease Score(FRES)和FKGL量化文本可读性;4)使用RStudio 4.5.1进行统计学分析,包括ICC检验和Kruskal-Wallis检验。

3.1 可读性评估

所有AI模型的平均FKGL得分在8.49(ChatGPT)至9.98(Gemini)之间,对应美国高中1-2年级阅读水平,显著高于医学界推荐的6年级标准。FRES评分显示,ChatGPT(52.5±9.94)可读性最佳,但仍属于"较难"范畴(50-60分对应10-12年级)。

3.2 信息质量分析

Gemini以34.1分(满分40)的DISCERN成绩显著领先(p<0.001),主要优势在于自动引用参考文献。值得注意的是,当采用标准提问(未明确要求引证)时,仅Gemini能保持稳定的文献引用习惯,其他模型如ChatGPT(24.2分)在无特别提示时较少提供来源。

3.3 整体质量感知

全球质量评分(GQS)显示所有模型均获4分以上(5分制),表明从用户体验角度,不同AI生成的回答都具有较好的表面可信度。这种"质量感知均质化"现象提示,普通用户可能难以辨别各平台应答质量的实质差异。

讨论部分指出三个关键发现:首先,AI模型在未特别提示时普遍缺乏主动引证意识,这可能助长健康错误信息的传播;其次,现有模型的文本复杂度仍构成健康素养障碍,特别是对教育水平较低人群;最后,提示词工程(prompt engineering)显著影响输出质量——当明确要求"提供证据"时,ChatGPT等模型的引证率可提升至78%。

这项研究为AI医疗咨询工具的优化指明了方向:一方面需要开发更智能的引证机制,另一方面应加强健康素养适应性算法。作者建议未来研究应纳入真实患者进行理解度测试,并探索多模态(如图文结合)输出对可读性的提升效果。随着欧盟AI法案等监管框架的完善,这项基准研究为制定医疗AI质量标准提供了重要参考依据。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号