《Digestive Diseases and Sciences》:Readability, Quality, Understandability, and Actionability of ChatGPT Generated GI Patient Education Versus AGA Patient Center
编辑推荐:
背景与目的
患者越来越多地使用互联网和人工智能(AI)聊天机器人获取健康信息,然而,AI生成的胃肠病学患者教育内容在可读性、质量、可理解性和可操作性方面的表现仍不明确。本研究采用经验证的健康素养评估工具,将专业学会网站上的胃肠病学患者教育材料与ChatGPT
背景与目的
患者越来越多地使用互联网和人工智能(AI)聊天机器人获取健康信息,然而,AI生成的胃肠病学患者教育内容在可读性、质量、可理解性和可操作性方面的表现仍不明确。本研究采用经验证的健康素养评估工具,将专业学会网站上的胃肠病学患者教育材料与ChatGPT生成的内容进行比较。
方法
在这项横断面比较研究中,研究人员从美国胃肠病学会(American Gastroenterological Association,AGA)患者信息网站选取了50个胃肠病学患者教育主题,并采用标准化提示语为每个主题生成对应的ChatGPT回答。可读性采用Flesch-Kincaid年级水平(Flesch-Kincaid Grade Level)进行评估;治疗信息质量采用DISCERN量表评估;可理解性和可操作性采用患者教育材料评估工具(Patient Education Materials Assessment Tool,PEMAT)评估;评分由2名盲法审阅者完成。采用配对t检验比较不同来源之间的平均得分,并采用组内相关系数(intraclass correlation coefficients,ICCs)评估审阅者之间的一致性。
结果
共分析50对配对主题。ChatGPT材料的平均Flesch-Kincaid年级水平高于GI网站材料(10.33 ± 1.5 vs 8.72 ± 1.7;平均差值1.61;P < .001)。DISCERN评分(63.5 ± 5.7 vs 64.3 ± 5.4;平均差值?0.8)、PEMAT可理解性(87.9% ± 6.9% vs 86.5% ± 7.8%;平均差值1.4%;P = .33)及PEMAT可操作性(78.6% ± 9.8% vs 77.9% ± 10.2%;平均差值0.6%;P = .73)差异均无统计学显著性。所有测量指标的评审者间一致性均表现优异:PEMAT可理解性的组内相关系数为0.97(95%置信区间[CI]:0.95–0.99),PEMAT可操作性为0.96(95% CI:0.94–0.98),DISCERN为0.99(95% CI:0.98–0.99)。
结论
与专业学会材料相比,ChatGPT生成的胃肠病学患者教育内容在质量、可理解性和可操作性方面表现相近,但其写作阅读等级显著更高。提高可读性可能有助于增强可及性,并支持AI生成患者教育内容的安全整合。
该文发表于《Digestive Diseases and Sciences》,聚焦于生成式人工智能在胃肠病学患者教育中的应用价值与局限。患者教育材料是影响健康素养、治疗依从性及共享决策的重要信息载体。现有医学传播原则通常建议面向患者的材料控制在小学六至八年级阅读水平,以提高大众可及性。然而,既往研究显示,大量网络健康信息普遍高于推荐阅读难度。随着大语言模型,尤其是ChatGPT,逐渐成为公众获取医学知识的新入口,其即时应答、对话式交互和个体化解释能力具有明显优势,但其输出内容是否真正符合患者教育对可读性、信息质量、可理解性与可操作性的要求,仍缺乏系统验证。特别是在胃肠病学领域,此前尚无研究采用标准化健康素养工具,将AI生成内容与专业学会正式患者教育资源进行直接对照。因此,开展本研究具有现实必要性,既可评估AI作为补充性教育工具的适用性,也可识别其在患者安全传播中的关键短板。
研究人员采用配对设计,对美国胃肠病学会(American Gastroenterological Association,AGA)患者信息网站与ChatGPT生成的胃肠病学患者教育内容进行头对头比较。研究假设为:AI生成内容在质量和使用性方面可能接近专业学会材料,但在可读性方面较差。最终结果证实,ChatGPT在治疗信息质量、可理解性和可操作性上与AGA材料相似,但阅读等级显著更高,说明其最大限制并非整体内容框架或实用性不足,而是文本复杂度偏高,不利于健康素养水平较低人群使用。这一发现对于AI辅助患者教育的规范化整合具有直接意义,提示未来若要安全推广此类工具,必须优先优化语言简化策略,使其更符合既有健康传播标准。
本研究为横断面比较研究。研究人员从AGA Patient Center中选取50个胃肠病学患者教育主题,覆盖较广泛的胃肠病学内容,并以“Provide patient education on [topic]”作为标准化提示语,分别在独立新建对话中生成ChatGPT回答,形成50组配对文本。研究采用Flesch-Kincaid Grade Level评估可读性,采用DISCERN量表评估治疗信息质量与可靠性,采用患者教育材料评估工具(PEMAT)评估可理解性与可操作性;其中主观评分均由2名盲法医师审阅者独立完成。统计学方面采用配对t检验比较两类来源的均值差异,并以组内相关系数(ICC)评估评分一致性。研究材料均来自公开来源,不涉及人类受试者。
研究结果
Study Design and Data Sources
研究人员建立了严格的配对比较框架,从AGA患者教育网站中选择50个主题,并使用统一提示语生成相应的ChatGPT患者教育文本。每个主题均以专业学会网页内容和AI生成内容作为一对分析单位,从而减少主题异质性对结果的干扰。研究还规定不进行追问、迭代优化或人工编辑,以便更真实地评估ChatGPT在标准化条件下的原始输出表现。该设计保证了两类文本在主题层面的可比性,也提高了研究结论的内部一致性。
Outcomes and Measurement Instruments
研究采用三类已验证工具构建多维评估框架。首先,Flesch-Kincaid Grade Level用于估算理解文本所需的美国学校教育年级,分数越低表示越易读。其次,DISCERN作为16条目的经典工具,用于评估与治疗选择相关的健康信息质量和可靠性,总分16至80分,得分越高质量越高。再次,PEMAT分别从可理解性和可操作性两个维度衡量患者是否容易处理信息以及是否能够据此采取明确行动。该多工具联合评估方式避免了单一指标导致的偏差,使研究能同时覆盖语言难度、内容质量和使用效能三个层面。
Readability
在可读性方面,ChatGPT生成文本的平均Flesch-Kincaid年级水平为10.33 ± 1.5,而AGA网站材料为8.72 ± 1.7,平均差值为1.61,且差异具有统计学显著性(P < .001)。这一结果表明,虽然AGA材料本身也未完全达到理想的六至八年级阅读目标,但其整体上更接近患者教育推荐标准;相比之下,ChatGPT输出文本明显更复杂,要求更高的阅读能力。研究据此指出,AI模型可能继承了互联网医学文本普遍偏复杂的语言特征,因此在默认状态下容易生成阅读门槛较高的患者教育内容。
Quality of Treatment Information
在治疗信息质量方面,AGA材料与ChatGPT生成材料的DISCERN总分分别为64.3 ± 5.4和63.5 ± 5.7,平均差值为?0.8,差异无统计学意义(P = 0.49)。按DISCERN手册的质量分级,两者均处于“excellent quality”范围。该结果说明,在与治疗选择相关的信息透明度、平衡性、风险获益描述以及整体可靠性方面,ChatGPT生成内容与专业学会资源总体相当。论文同时指出,DISCERN并不直接衡量事实准确性,但由2名医师进行独立审阅时,未发现AI文本存在重大的事实错误、临床上重要的遗漏或潜在有害建议。这支持了AI内容在总体信息框架上与既有胃肠病学患者教育资源具有较高一致性。
Understandability and Actionability
在PEMAT评估中,ChatGPT与AGA材料在可理解性和可操作性方面同样表现接近。PEMAT可理解性得分分别为87.9% ± 6.9%和86.5% ± 7.8%,平均差值1.4%,P = .33;PEMAT可操作性得分分别为78.6% ± 9.8%和77.9% ± 10.2%,平均差值0.6%,P = .73。两类材料在这两个维度上的得分均高于常用的70%可接受阈值,提示无论是专业学会文本还是AI生成文本,整体上都较容易被患者理解,并能提供一定程度的行动指导。该结果意味着,ChatGPT虽然在语言复杂度上存在劣势,但并未在信息组织和行动导向方面明显落后。
Scoring Procedures and Inter-rater Reliability
由于DISCERN和PEMAT包含主观判断成分,研究进一步评估了两名医师评分者之间的一致性。结果显示,所有指标的组内相关系数均极高:PEMAT可理解性ICC为0.97(95% CI:0.95–0.99),PEMAT可操作性ICC为0.96(95% CI:0.94–0.98),DISCERN为0.99(95% CI:0.98–0.99)。这表明研究评分过程具有极佳的重复性和可靠性,增强了结论的稳健性,也说明所采用的评价框架适用于类似AI医学传播研究。
Discussion
讨论部分指出,本研究的重要贡献在于首次以胃肠病学专科为整体范围,采用配对设计和验证工具,直接比较AI生成患者教育内容与专业学会官方资源。研究结果显示,ChatGPT的主要不足集中在可读性,而非整体内容质量或实用性。论文进一步结合公众阅读能力分布和美国医学会建议强调,约85%的普通公众阅读能力位于六至八年级或以下,因此即便AI内容在质量评分上可接受,若语言过于复杂,仍可能削弱其实际传播效果和健康公平性价值。
研究还指出,DISCERN结果提示ChatGPT在治疗信息质量上可达到较高水平,而PEMAT结果表明其在信息处理便利性和行动指导性上与专业学会材料相近,因此AI生成内容有潜力作为患者教育的补充资源。但作者同时强调,当前评价工具尚不能直接替代事实准确性、安全性和临床有效性的专门审查,因此在实际应用中仍需保持谨慎。研究优势包括:采用同主题配对设计、覆盖较广胃肠病学主题、使用多种验证工具开展多维评价,并以预设结局和置信区间提高统计分析严谨性。局限性则包括:结论仅适用于特定AI模型和特定专业学会资源;无法确认模型训练语料是否包含类似专业学会材料;现有工具不能直接量化事实准确性与潜在危害;此外,标准化单轮提示环境与真实患者反复追问的使用场景并不完全一致。
研究结论部分可译为:在这项横断面比较研究中,ChatGPT生成的胃肠病学患者教育内容与专业胃肠病学学会材料相比,在质量、可理解性和可操作性方面表现相似,但其可读性仍高于推荐的患者健康素养目标。上述结果提示,AI生成的患者教育内容可以作为健康信息的补充来源,但仍需改进可读性,以优化可及性与健康公平。随着患者越来越多地使用对话式AI工具获取医学信息,确保生成内容符合既有健康素养标准,对于其在患者教育中的安全、有效整合至关重要。
总体而言,该研究并未将ChatGPT简单视为优于或劣于传统患者教育资源的替代品,而是通过实证比较指出:在胃肠病学患者教育场景下,AI文本已具备接近专业学会材料的质量与使用性基础,但其语言层级偏高仍是影响临床推广和患者实际获益的核心障碍。论文的意义在于为AI患者教育评估提供了可复制的方法框架,也为未来改进提示词设计、模型微调及健康素养规范嵌入提供了明确方向。