人工智能在正畸健康素养中的应用评估：ChatGPT-4o与DeepSeek的比较研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Scientific Reports》：Evaluation of ChatGPT-4o and DeepSeek as tools for orthodontic health literacy in public dental education

【字体：大中小】 时间：2025年12月04日 来源：Scientific Reports 3.9

编辑推荐：

　　本研究针对正畸健康素养教育中专业信息传播效率低、公众理解困难的问题，通过德尔菲法构建双语题库，系统评估ChatGPT-4o与DeepSeek在正畸健康知识问答中的准确性、一致性和响应速度。结果显示，两模型整体准确率无显著差异（90.4% vs 88.0%），但ChatGPT-4o在中文场景下表现更优（91.3% vs 83.6%）且响应速度更快（1.9s vs 5.2s）。该研究为AI辅助口腔公共卫生教育提供了实证依据，凸显了大语言模型在提升健康信息可及性方面的潜力。

随着人工智能技术的飞速发展，大语言模型（Large Language Model, LLM）已逐步渗透到医疗健康的多个领域，从辅助诊断到患者教育，展现出广阔的应用前景。然而，在口腔医学特别是正畸学科中，如何将专业的矫治理念、风险认知和长期维护知识转化为公众易于理解的内容，始终是健康素养提升的难点。传统教育模式受限于时空和资源，难以实现个性化、即时性的信息传递。与此同时，尽管ChatGPT-4o和DeepSeek等模型在通用领域表现卓越，但其在特定医学场景下的可靠性、多语言适应性及响应效率尚缺乏系统验证。

为此，武汉大学口腔医学院的研究团队在《Scientific Reports》上发表了一项开创性研究，首次对ChatGPT-4o和DeepSeek在正畸健康素养任务中的表现进行了全面比较。该研究不仅关注模型的准确率，还引入时间维度与语言变量，旨在为AI工具在真实医疗教育环境中的部署提供科学依据。

关键方法概述

研究通过德尔菲法（Delphi Method）由5名资深正畸专家构建50道双语选择题，覆盖基础知识、风险意识、治疗决策、口腔维护和长期随访五大维度。每个问题在3天内分早、中、晚三个时段重复提问，共收集900条响应数据。采用SPSS和R软件分析准确性、一致性（以ICC值衡量）及响应时间，并严格控制网络与硬件环境以排除干扰。

研究结果

整体性能对比

ChatGPT-4o在英文和中文版本中的整体准确率分别为90.4%和91.3%，略高于DeepSeek的88.0%和83.6%。虽然英文环境下差异不显著（p=0.247），但中文场景中ChatGPT-4o优势明显（p<0.001）。

分组表现差异

在基础知识领域（Group A），DeepSeek准确率显著低于ChatGPT-4o（英文50.0% vs 82.2%）；而在治疗决策领域（Group C），DeepSeek反而实现英文满分（100.0%）。这种“高复杂任务强、基础任务弱”的反差提示DeepSeek可能存在知识碎片化问题。

时间与语言稳定性

两模型在不同时段和测试日的表现均保持稳定（p>0.05），且一致性指标均高达0.98以上。但DeepSeek在中文版复杂问题（Group D、E）中准确率显著下降，反映出其跨语言泛化能力的局限性。

响应效率

ChatGPT-4o响应时间显著更短（中英文均<2秒），DeepSeek则需约5秒，前者更适用于实时交互场景。

结论与意义

本研究证实ChatGPT-4o和DeepSeek均能胜任正畸健康素养的辅助教育任务，但二者特性鲜明：ChatGPT-4o综合性能更均衡，尤其在多语言响应效率上优势突出；DeepSeek虽在复杂推理任务中表现优异，但基础知识稳定性不足。这一发现为临床实践提供了重要参考——在需要快速、可靠信息分发的场景（如患者即时咨询）中，ChatGPT-4o更具实用性；而DeepSeek可能更适用于深度分析类任务。

未来研究需扩大样本多样性、纳入解释质量评估，并探索AI与人类协同的教育模式。作为正畸健康素养数字化升级的基石，本工作为AI驱动型公共卫生策略的优化奠定了实证基础。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号