人工智能生成的风湿性脊柱炎患者教育材料：可读性与质量的比较研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Clinical Rheumatology》：AI-generated patient education for ankylosing spondylitis: a comparative study of readability and quality

【字体：大中小】 时间：2025年12月15日 来源：Clinical Rheumatology 2.8

编辑推荐：

　　AI生成的强直性脊柱炎患者教育材料质量较高但语言复杂，ChatGPT-4o内容准确性最佳，DeepSeek V3可读性最优，需优化语言以适配不同教育水平患者。

摘要

目的

评估并比较四种基于人工智能的大型语言模型（LLMs）生成的强直性脊柱炎（AS）患者教育材料（PEM）的质量和可读性：ChatGPT-4o、ChatGPT-3.5、DeepSeek R1和DeepSeek V3。

方法

2025年5月1日，通过Google Trends（土耳其）确定了与AS相关的十个最常搜索的问题。这些问题被提交给这四种LLMs，它们的回答未经修改就被记录下来。质量由两位独立的风湿病专家进行评估，使用DISCERN工具进行评价。可读性和理解力则通过Flesch阅读易度得分（FRES）和Flesch-Kincaid年级水平（FKGL）来衡量。评分者间的一致性通过类内相关系数（ICC）进行分析。报告了平均分数和95%置信区间（CI）。

结果

ChatGPT-4o获得了最高的平均DISCERN得分（72.38），其次是DeepSeek R1（69.76）、ChatGPT-3.5（68.82）和DeepSeek V3（68.79）。DISCERN的评分者间一致性非常好（ICC，0.931）。尽管差异没有统计学意义，但ChatGPT-4o的平均DISCERN得分最高。在可读性分析中，DeepSeek V3的FRES得分最高（14.93），这表明DeepSeek V3比其他LLMs更容易理解。ChatGPT-3.5的得分最低（5.29）。FKGL得分在各个模型之间的差异较小（15.33–15.93），因此可以认为这些数据需要大学水平的阅读能力。

结论对于强直性脊柱炎患者来说，AI生成的患者教育材料总体上足够复杂，能够满足受教育程度较高的患者的需求。这些材料信息量大且复杂，无论接受者的教育水平如何，都需要较高的专业知识。未来，根据个人特征（如教育水平等）改进语言的清晰度和可理解性，并提供基于证据的引用，可以帮助使LLMs在临床环境或公众中更加有用。

关键点

• 本研究比较了不同AI聊天机器人向患者解释强直性脊柱炎的方式。

• 尽管信息质量很高，但使用的语言对大多数患者来说过于复杂。

• ChatGPT-4o提供了最准确的内容，而DeepSeek V3使用了最简单的词汇。

• 未来的AI工具应使用更简单的语言，并包含可靠的参考文献，以更好地支持患者教育。

图形摘要

目的