AI生成脊柱侧凸教育材料的可读性与质量评估:五大语言模型的比较分析
【字体:
大
中
小
】
时间:2025年10月12日
来源:Scientific Reports 3.9
编辑推荐:
本研究针对AI生成医疗信息存在的可读性不足、质量参差及缺乏引用等问题,系统评估了ChatGPT-4o、ChatGPT-o1、ChatGPT-o3 mini-high、DeepSeek-V3和DeepSeek-R1五大模型在脊柱侧凸教育内容生成中的表现。通过Flesch-Kincaid可读性指标(FKGL、FKRE)和DISCERN质量评分体系,发现DeepSeek-R1可读性最优(FKGL=6.2,FKRE=64.5),而所有模型内容质量均仅为“一般”(DISCERN≈50.5/80),且均未提供参考文献。研究强调未来AI需平衡可读性与信息准确性,并整合实时引用机制,以提升医疗信息可靠性。
脊柱侧凸是一种复杂的脊柱三维畸形,患者和照护者常因专业术语和治疗方案的复杂性难以做出知情决策。随着人工智能在医疗领域的普及,越来越多的人依赖AI工具获取健康信息。然而,AI生成的内容可能存在可读性低、信息不一致、质量存疑等问题,甚至带来误导风险。为此,来自上海交通大学医学院、南澳大学等机构的研究团队在《Scientific Reports》发表了一项研究,系统性评估了五大语言模型生成脊柱侧凸教育材料的可读性与信息质量。
研究选取了先天性、青少年特发性和神经肌肉性三类脊柱侧凸作为查询主题,针对ChatGPT-4o、ChatGPT-o1、ChatGPT-o3 mini-high、DeepSeek-V3和DeepSeek-R1五个模型生成回复进行分析。可读性评估采用Flesch-Kincaid年级水平(FKGL)和Flesch-Kincaid阅读易度(FKRE),内容质量则通过DISCERN工具评分(总分80分),并由具有脊柱侧凸治疗背景的评审者独立完成评分。统计分析使用R-Studio完成,组间一致性通过组内相关系数(ICC)评估。
DeepSeek-R1在所有模型中表现最佳,其FKGL最低(6.2),FKRE最高(64.5),表明其内容最易理解。相反,ChatGPT-o1和ChatGPT-o3 mini-high的FKGL均超过12.0,需大学阅读水平才能理解。ChatGPT-4o的FKGL介于8.4–9.8之间,属于中等难度;DeepSeek-V3则稳定在10.3左右。句子和词汇数量分析显示,ChatGPT-o1生成内容最为冗长(最高达767词),而DeepSeek-R1输出最为简洁(293–336词),平均句长也最短(7.92–12词)。
尽管可读性存在显著差异,所有模型的DISCERN评分均维持在50.5分左右,属于“一般”质量水平,且评审者间一致性高(ICC=0.85–0.87)。这表明不同模型在信息可靠性、治疗细节完整性方面表现相近,但所有回复均未提供参考文献,限制了其可信度。
研究指出,AI模型的结构设计显著影响文本可读性:部分模型倾向于通过增加信息密度提升准确性,导致内容复杂化;而DeepSeek系列可能因神经网络架构优化、训练数据质量高或推理阶段策略改进等因素,在可读性方面表现突出。然而,过度简化可能遗漏关键医学信息,尤其对青少年患者而言,缺乏针对其心理需求和社会场景的个性化内容仍是当前AI系统的短板。此外,所有模型均存在引用缺失问题,易导致“幻觉引用”或误导性结论,加剧公众健康风险。
未来AI模型应在提升可读性的同时,确保信息准确性,整合实时引用机制,并开发基于用户健康素养和认知水平的个性化生成框架,以真正支持患者和照护者的医疗决策。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号