人工智能在正畸健康素养中的应用评估:ChatGPT-4o与DeepSeek的比较研究

《Scientific Reports》:Evaluation of ChatGPT-4o and DeepSeek as tools for orthodontic health literacy in public dental education

【字体: 时间:2025年12月04日 来源:Scientific Reports 3.9

编辑推荐:

  本研究针对正畸健康素养教育中专业信息传播效率低、公众理解困难的问题,通过德尔菲法构建双语题库,系统评估ChatGPT-4o与DeepSeek在正畸健康知识问答中的准确性、一致性和响应速度。结果显示,两模型整体准确率无显著差异(90.4% vs 88.0%),但ChatGPT-4o在中文场景下表现更优(91.3% vs 83.6%)且响应速度更快(1.9s vs 5.2s)。该研究为AI辅助口腔公共卫生教育提供了实证依据,凸显了大语言模型在提升健康信息可及性方面的潜力。

  
随着人工智能技术的飞速发展,大语言模型(Large Language Model, LLM)已逐步渗透到医疗健康的多个领域,从辅助诊断到患者教育,展现出广阔的应用前景。然而,在口腔医学特别是正畸学科中,如何将专业的矫治理念、风险认知和长期维护知识转化为公众易于理解的内容,始终是健康素养提升的难点。传统教育模式受限于时空和资源,难以实现个性化、即时性的信息传递。与此同时,尽管ChatGPT-4o和DeepSeek等模型在通用领域表现卓越,但其在特定医学场景下的可靠性、多语言适应性及响应效率尚缺乏系统验证。
为此,武汉大学口腔医学院的研究团队在《Scientific Reports》上发表了一项开创性研究,首次对ChatGPT-4o和DeepSeek在正畸健康素养任务中的表现进行了全面比较。该研究不仅关注模型的准确率,还引入时间维度与语言变量,旨在为AI工具在真实医疗教育环境中的部署提供科学依据。
关键方法概述
研究通过德尔菲法(Delphi Method)由5名资深正畸专家构建50道双语选择题,覆盖基础知识、风险意识、治疗决策、口腔维护和长期随访五大维度。每个问题在3天内分早、中、晚三个时段重复提问,共收集900条响应数据。采用SPSS和R软件分析准确性、一致性(以ICC值衡量)及响应时间,并严格控制网络与硬件环境以排除干扰。
研究结果
整体性能对比
ChatGPT-4o在英文和中文版本中的整体准确率分别为90.4%和91.3%,略高于DeepSeek的88.0%和83.6%。虽然英文环境下差异不显著(p=0.247),但中文场景中ChatGPT-4o优势明显(p<0.001)。
分组表现差异
在基础知识领域(Group A),DeepSeek准确率显著低于ChatGPT-4o(英文50.0% vs 82.2%);而在治疗决策领域(Group C),DeepSeek反而实现英文满分(100.0%)。这种“高复杂任务强、基础任务弱”的反差提示DeepSeek可能存在知识碎片化问题。
时间与语言稳定性
两模型在不同时段和测试日的表现均保持稳定(p>0.05),且一致性指标均高达0.98以上。但DeepSeek在中文版复杂问题(Group D、E)中准确率显著下降,反映出其跨语言泛化能力的局限性。
响应效率
ChatGPT-4o响应时间显著更短(中英文均<2秒),DeepSeek则需约5秒,前者更适用于实时交互场景。
结论与意义
本研究证实ChatGPT-4o和DeepSeek均能胜任正畸健康素养的辅助教育任务,但二者特性鲜明:ChatGPT-4o综合性能更均衡,尤其在多语言响应效率上优势突出;DeepSeek虽在复杂推理任务中表现优异,但基础知识稳定性不足。这一发现为临床实践提供了重要参考——在需要快速、可靠信息分发的场景(如患者即时咨询)中,ChatGPT-4o更具实用性;而DeepSeek可能更适用于深度分析类任务。
未来研究需扩大样本多样性、纳入解释质量评估,并探索AI与人类协同的教育模式。作为正畸健康素养数字化升级的基石,本工作为AI驱动型公共卫生策略的优化奠定了实证基础。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号