《JMIR Dermatology》:ChatGPT-Generated Advice on Sun Protection and Skin Cancer Prevention Compared to American Academy of Dermatology Guidelines: Cross-Sectional Content Analysis
编辑推荐:
为评估人工智能(artificial intelligence, AI)生成内容在皮肤病学领域的应用价值,研究人员开展了一项描述性内容分析研究,旨在将ChatGPT(GPT-4免费版)生成的防晒与皮肤癌预防建议与美国皮肤病学会(American Academy
为评估人工智能(artificial intelligence, AI)生成内容在皮肤病学领域的应用价值,研究人员开展了一项描述性内容分析研究,旨在将ChatGPT(GPT-4免费版)生成的防晒与皮肤癌预防建议与美国皮肤病学会(American Academy of Dermatology, AAD)指南进行系统比对。研究人员选取了9个反映公众常见咨询的标准化问题,涵盖防晒霜使用、防护性衣物穿戴及皮肤癌早期检测等主题,于2025年5月13日单次会话中提交至ChatGPT,记忆功能保持开启且未在问题间重置。两名具有15年以上临床经验的认证皮肤科顾问医师(分别驻约旦和英国)独立采用作者自行开发的5点评分量表对答复进行四维度评估,包括准确性(accuracy)、完整性(completeness)、清晰度(clarity)和相关性(relevance),并以AAD指南为基准锚定。评分分歧通过讨论协商解决,最终达成共识。研究通过线性加权Cohen κ系数和组内相关系数(intraclass correlation coefficient, ICC)评估评定者间信度。结果显示,准确性、完整性、清晰度和相关性的总体均分分别为5.0(标准差0.0)、4.1(标准差0.6)、5.0(标准差0.0)和4.9(标准差0.3),综合均分为4.75/5.0(标准差0.49)。评定者间信度优异(加权Cohen κ=0.80;ICC(2,1)=0.85;36项中有33项完全一致,占91.7%)。完整性为得分最低的维度(范围3.0-5.0),主要表现为遗漏性错误而非主动性错误。研究结论指出,ChatGPT在该定向内容分析中提供了基本准确且符合指南的防晒与皮肤癌预防建议,但其主要局限在于未能充分涵盖细节性指南内容。尽管无法替代专业医疗,ChatGPT经持续系统性评估后,可作为公共卫生教育的有价值辅助工具。
皮肤癌作为全球重大公共卫生问题,其发病率近年来呈持续上升趋势。非黑色素瘤皮肤癌占所有癌症诊断的三分之一,其中基底细胞癌(basal cell carcinoma, BCC)占比高达75%;黑色素瘤(melanoma)虽仅占皮肤癌病例的2%,却导致了80%的皮肤癌相关死亡。仅在美国,自1975年以来黑色素瘤发病率已增长约320%,成为全球发病率增长最快的恶性肿瘤之一。紫外线(ultraviolet, UV)辐射作为皮肤癌首要的可调控危险因素,可直接造成皮肤细胞DNA损伤。尽管公众防晒意识有所提升,但综合防晒措施的依从性仍不理想,这就形成了新兴技术或可弥补的教育缺口。人工智能平台如ChatGPT的出现,为规模化改善健康沟通和患者教育提供了新机遇,但其生成内容的准确性、尤其是皮肤病学指导方面的质量尚缺乏系统评估。基于此背景,Hanadi Qeyam和Ahmed Al-Rusan开展了一项针对性内容分析,以AAD指南为金标准,评估ChatGPT在防晒与皮肤癌预防领域的建议质量,研究成果发表于《JMIR Dermatology》。
本研究采用的关键技术方法主要包括:基于METRICS(model, evaluation, timing, range/randomization, individual factors, count, and specificity of prompts and language)框架的标准化报告设计;9个标准化患者风格问题的构建与单次会话提交;作者自行开发的5点序数量表(0-5分)对准确性、完整性、清晰度和相关性四维度进行评估;线性加权Cohen κ系数和ICC
(2,1)对两名独立评定医师进行评定者间信度分析;SPSS Statistics(版本29)进行描述性统计分析。
研究结果部分按照评估维度呈现如下:
**评定者间信度结果**:两名评定者在36项评分中91.7%(33/36)完全一致,所有分歧均出现在完整性维度且幅度仅为±1分。线性加权Cohen κ为0.80,ICC
(2,1)为0.85,表明具有实质性至接近完美的评定者间一致性。
**问题1(如何预防皮肤癌)**:准确性得满分(5.0/5),涵盖防晒霜使用、避免日晒、防护衣物、避免日光浴床及皮肤自检等措施均符合AAD指南;完整性4.0/5,遗漏了UV防护太阳镜、反光表面特殊防护、阴凉处作为首选防护方式以及儿童皮肤保护指导;清晰度和相关性均获满分。
**问题2(应使用何种防晒霜)**:准确性5.0/5,正确识别广谱防护、SPF
(sun protection factor)≥30、防水性以及矿物性与化学性防晒霜区别;完整性4.0/5,遗漏了防晒霜与其他防护措施联合使用、反光表面额外注意以及足量涂抹指导。值得注意的是,ChatGPT列出了具体品牌推荐(EltaMD、La Roche-Posay、Neutrogena、Supergoop!),虽临床情境中尚属恰当,但受地域产品可及性限制,应视为说明性而非处方性建议。
**问题3(防晒霜用量及使用频率)**:准确性5.0/5,正确给出全身用量约1盎司(30mL)、每2小时补涂以及游泳出汗后即刻补涂等标准;完整性4.5/5,唯一明显遗漏为唇部保护这一AAD具体建议。
**问题4(何时使用防晒霜)**:四个维度均获满分(5.0/5),涵盖日常使用、气候因素、暴露前15分钟涂抹、UV峰值时段、高反射环境及室内临窗场景,与AAD指南完全一致。
**问题5(高SPF值是否优于低SPF值)**:准确性5.0/5,正确阐释高SPF的边际效益递减规律,强调不可因高SPF而忽视规范涂抹习惯;完整性4.0/5,遗漏了A关于SPF最低30的建议、高SPF不延长补涂间隔以及普遍存在的用量不足问题。
**问题6(防晒穿戴建议)**:完整性得分最低(3.0/5),为全研究最低分,遗漏内容包括防护鞋履、无效选项警告(棒球帽、有缝隙草帽)、湿衣物防护力下降,以及不同织物UPF
(ultraviolet protection factor)的显著差异(如牛仔布UPF约1700 vs 白色T恤UPF约7)。相关性4.0/5,因未将衣物防护融入多组分综合防晒策略。准确性虽为5.0/5,但"网眼或透气衣物"的纳入存在潜在误导性——此类织物因织法开放通常UPF评级较低,尽管ChatGPT未明确声称其高UV防护而未在准确性上扣分,临床医师应警惕患者可能产生的误解。
**问题7(皮肤癌常见类型)**:准确性、清晰度和相关性均5.0/5,准确描述BCC、鳞状细胞癌(squamous cell carcinoma, SCC)和黑色素瘤特征;完整性4.0/5,遗漏了光化性角化病(actinic keratoses)这一具有恶变风险的癌前病变。
**问题8(如何进行皮肤自检)**:准确性5.0/5,正确的系统性从头到脚检查流程及ABCDE标准整合;完整性4.5/5,轻微遗漏指趾甲单独检查、趾间检查以及发现变化时咨询认证皮肤科医师的具体建议。
**问题9(黑色素瘤ABCDE警告信号)**:准确性、清晰度和相关性均满分,正确定义不对称性(Asymmetry)、边界不规则性(Border irregularity)、颜色变异(Color variation)、直径>6mm(Diameter)和演变(Evolving)五项标准;完整性4.0/5,遗漏了AAD特别推荐的记录和追踪痣变化行为。
**定量评估总结**:准确性和清晰度出现天花板效应(均数5.0,标准差0.0),表明在所评估问题范围内ChatGPT未产生事实性错误陈述。相关性亦表现优异(均数4.9)。完整性为最弱维度(均数4.1,标准差0.6,范围3.0-5.0),问题6答复总体均分最低(4.25/5),且为唯一相关性未获满分的答复。所有维度错误均以遗漏为主,而非事实性不准确。
讨论部分,研究人员首先总结核心发现:ChatGPT(GPT-4)生成的防晒与皮肤癌预防建议在针对AAD指南的评估中获得4.75/5的综合高分,准确性表现卓越,但完整性存在系统性不足,呈现典型的"遗漏而非主动错误"模式。这一发现与既往研究中ChatGPT对96%核心问题提供临床适当建议的结果一致,也符合大型语言模型(large language model, LLM)在临床医学评估中的普遍表现模式——总体准确但选择性不完整。
研究人员特别强调了准确性与完整性的临床区分价值:表面指南一致性与临床实用性并非等同概念。高准确性得分并不保证答复在特定风险人群或地理限制情境下的充分性。例如产品特异性推荐在部分地区可能无法获取;儿童防护遗漏对高风险体质患者具有重要影响;衣物防护答复中"网眼透气"选项的纳入虽 technically 未构成事实错误,却存在实际误导风险。这些完整性缺口的临床意义因问题而异,但对高风险患者群体尤需关注。
在AI作为临床医师主导教育辅助工具的定位方面,研究人员援引既往研究表明,AI驱动的皮肤老化模拟等干预已证实可产生长期防晒行为改善,提示ChatGPT类工具不仅可作为信息来源,更有潜力成为促进依从性的 motivational 平台。然而,依照以人为本的AI医疗教育框架,ChatGPT最适宜定位为支持和延伸临床医师患者教育的辅助工具,而非独立替代专业指导,需在维持医师监督的 care model 中整合应用。研究人员同时援引近期综述指出,AI虽在临床及皮肤镜图像分析中有时超越人类专家,但最佳 outcomes 仍需AI工具与临床专长相结合。
研究局限性方面,作者坦诚指出:9个问题构成定向内容分析而非全面知识评估;单次会话设计及记忆功能开启使后续答复可能受先前对话上下文影响;单次输出收集无法反映LLM的随机性特征;2025年5月的模型版本 findings 可能无法被未来版本复现;两名评定者虽信度优异但更大 panel 将增强效度;作者自行开发的量表未经正式心理测量学验证;仅比对AAD指南未涵盖国际指南变异;英语提示限制研究发现向非英语人群的推广性;以及产品品牌推荐的地域局限性等。
研究结论翻译:本描述性内容分析表明,ChatGPT生成 largely 准确且符合指南的防晒与皮肤癌预防建议,在四维度评估中均与AAD推荐高度一致。错误主要为遗漏而非事实性不准确,完整性代表首要改进空间。这些遗漏的临床意义因问题而异,但对高风险患者群体需加关注。尽管ChatGPT无法替代专业医疗建议,其可作为 valuable 辅助工具服务于公共卫生教育——最有效方式是整合于临床医师主导的教育框架内,确保情境适当性和指南完整性。经恰当、持续的评估,AI辅助皮肤病学教育在支持皮肤癌预防策略方面具有显著潜力。