
-
生物通官微
陪你抓住生命科技
跳动的脉搏
人工智能生成的风湿性脊柱炎患者教育材料:可读性与质量的比较研究
《Clinical Rheumatology》:AI-generated patient education for ankylosing spondylitis: a comparative study of readability and quality
【字体: 大 中 小 】 时间:2025年12月15日 来源:Clinical Rheumatology 2.8
编辑推荐:
AI生成的强直性脊柱炎患者教育材料质量较高但语言复杂,ChatGPT-4o内容准确性最佳,DeepSeek V3可读性最优,需优化语言以适配不同教育水平患者。
评估并比较四种基于人工智能的大型语言模型(LLMs)生成的强直性脊柱炎(AS)患者教育材料(PEM)的质量和可读性:ChatGPT-4o、ChatGPT-3.5、DeepSeek R1和DeepSeek V3。
2025年5月1日,通过Google Trends(土耳其)确定了与AS相关的十个最常搜索的问题。这些问题被提交给这四种LLMs,它们的回答未经修改就被记录下来。质量由两位独立的风湿病专家进行评估,使用DISCERN工具进行评价。可读性和理解力则通过Flesch阅读易度得分(FRES)和Flesch-Kincaid年级水平(FKGL)来衡量。评分者间的一致性通过类内相关系数(ICC)进行分析。报告了平均分数和95%置信区间(CI)。
ChatGPT-4o获得了最高的平均DISCERN得分(72.38),其次是DeepSeek R1(69.76)、ChatGPT-3.5(68.82)和DeepSeek V3(68.79)。DISCERN的评分者间一致性非常好(ICC,0.931)。尽管差异没有统计学意义,但ChatGPT-4o的平均DISCERN得分最高。在可读性分析中,DeepSeek V3的FRES得分最高(14.93),这表明DeepSeek V3比其他LLMs更容易理解。ChatGPT-3.5的得分最低(5.29)。FKGL得分在各个模型之间的差异较小(15.33–15.93),因此可以认为这些数据需要大学水平的阅读能力。
结论 对于强直性脊柱炎患者来说,AI生成的患者教育材料总体上足够复杂,能够满足受教育程度较高的患者的需求。这些材料信息量大且复杂,无论接受者的教育水平如何,都需要较高的专业知识。未来,根据个人特征(如教育水平等)改进语言的清晰度和可理解性,并提供基于证据的引用,可以帮助使LLMs在临床环境或公众中更加有用。
关键点 • 本研究比较了不同AI聊天机器人向患者解释强直性脊柱炎的方式。 • 尽管信息质量很高,但使用的语言对大多数患者来说过于复杂。 • ChatGPT-4o提供了最准确的内容,而DeepSeek V3使用了最简单的词汇。 • 未来的AI工具应使用更简单的语言,并包含可靠的参考文献,以更好地支持患者教育。 |

评估并比较四种基于人工智能的大型语言模型(LLMs)生成的强直性脊柱炎(AS)患者教育材料(PEM)的质量和可读性:ChatGPT-4o、ChatGPT-3.5、DeepSeek R1和DeepSeek V3。
2025年5月1日,通过Google Trends(土耳其)确定了与AS相关的十个最常搜索的问题。这些问题被提交给这四种LLMs,它们的回答未经修改就被记录下来。质量由两位独立的风湿病专家进行评估,使用DISCERN工具进行评价。可读性和理解力则通过Flesch阅读易度得分(FRES)和Flesch-Kincaid年级水平(FKGL)来衡量。评分者间的一致性通过类内相关系数(ICC)进行分析。报告了平均分数和95%置信区间(CI)。
ChatGPT-4o获得了最高的平均DISCERN得分(72.38),其次是DeepSeek R1(69.76)、ChatGPT-3.5(68.82)和DeepSeek V3(68.79)。DISCERN的评分者间一致性非常好(ICC,0.931)。尽管差异没有统计学意义,但ChatGPT-4o的平均DISCERN得分最高。在可读性分析中,DeepSeek V3的FRES得分最高(14.93),这表明DeepSeek V3比其他LLMs更容易理解。ChatGPT-3.5的得分最低(5.29)。FKGL得分在各个模型之间的差异较小(15.33–15.93),因此可以认为这些数据需要大学水平的阅读能力。
结论 对于强直性脊柱炎患者来说,AI生成的患者教育材料总体上足够复杂,能够满足受教育程度较高的患者的需求。这些材料信息量大且复杂,无论接受者的教育水平如何,都需要较高的专业知识。未来,根据个人特征(如教育水平等)改进语言的清晰度和可理解性,并提供基于证据的引用,可以帮助使LLMs在临床环境或公众中更加有用。
关键点 • 本研究比较了不同AI聊天机器人向患者解释强直性脊柱炎的方式。 • 尽管信息质量很高,但使用的语言对大多数患者来说过于复杂。 • ChatGPT-4o提供了最准确的内容,而DeepSeek V3使用了最简单的词汇。 • 未来的AI工具应使用更简单的语言,并包含可靠的参考文献,以更好地支持患者教育。 |

生物通微信公众号
知名企业招聘