ChatGPT 4o、DeepSeek R1与Gemini 2 Pro在固定修复学问题应答中的纵向性能对比研究

【字体: 时间:2025年06月06日 来源:The Journal of Prosthetic Dentistry 4.3

编辑推荐:

  本研究针对ChatGPT 4o、DeepSeek R1和Gemini 2 Pro在固定修复学MC(多选题)和SA(简答题)应答中的准确性与时效性展开纵向实验。通过4周重复测量发现,ChatGPT在MC中表现最优(P<0.017),Gemini在SA中持续改进,但总体准确率仅43%-71%,揭示了当前AI模型在临床知识传递中的局限性,为口腔医学教育AI工具开发提供实证依据。

  

在数字化医疗快速发展的今天,人工智能聊天机器人正逐步渗透到医学教育和临床决策支持领域。然而,这些模型在专业医学知识传递中的准确性和稳定性始终存在争议——尤其像固定修复学(Fixed Prosthodontics)这类需要高度专业判断的学科,一个错误的建议可能导致临床灾难。更令人担忧的是,主流模型如ChatGPT、DeepSeek和Gemini的迭代版本在特定医学场景中的表现差异尚未系统评估,而用户交互是否会改变其应答性能更是未知领域。

正是基于这些关键问题,来自国内的研究团队在《The Journal of Prosthetic Dentistry》发表了这项开创性研究。研究人员设计了一个精巧的纵向实验:从经典教材《Contemporary Fixed Prosthodontics》(第六版)中精选40道题目(20MC+20SA),在4周内每周通过10个独立账户向三大模型提问,并在每次交互后提供正确答案但清除记忆缓存。采用广义估计方程(GEE)分析时间与模型类型的交互效应,用Kendall W系数评估应答可重复性。

关键技术方法

  1. 纵向重复测量设计:4周时间序列观察模型性能演变
  2. 标准化问题库:基于权威教材构建20MC(四选项)和20SA问题
  3. 多账户控制:每个模型使用10个独立账户消除偶然误差
  4. 统计模型:广义估计方程(GEE)分析主效应与交互作用,Mann-Whitney U检验进行事后比较

MATERIAL AND METHODS
研究显示所有模型均具有显著可重复性(P<0.001),其中Gemini对SA问题的应答一致性最高(Kendall W≥0.8)。值得注意的是,DeepSeek在第四周MC应答中出现唯一例外(W<0.8),提示其长期记忆管理可能存在特殊机制。

RESULTS
性能对比呈现戏剧性差异:ChatGPT和DeepSeek在MC中显著优于Gemini(P<0.017),但Gemini在第三周SA应答中反超DeepSeek(P=0.007)。时间维度上,Gemini展现SA持续改进曲线,DeepSeek则在末期突然提升,而ChatGPT保持惊人稳定性。

DISCUSSION
三大模型43%-71%的总体准确率远未达临床可用标准。特别值得警惕的是,高重复性(如Gemini SA W=0.92)与正确率无必然关联,这彻底否定了"一致性即可靠性"的常见误解。研究首次证实:模型性能可经反馈提升(Gemini SA提升14%,DeepSeek末期MC突增),但改善模式存在显著异质性。

CONCLUSIONS

  1. ChatGPT成为MC问题最可靠选择,其稳定性可能源于GPT-4o架构的强化推理能力
  2. Gemini在SA领域的渐进式改进揭示了反馈微调(Fine-tuning)的有效性
  3. DeepSeek的末期性能跃迁暗示可能存在延迟学习机制
  4. 所有模型均未通过临床可靠性验证,强调必须建立医学AI的专项评估框架

这项研究犹如一剂清醒剂,明确指出当前AI在专业医学领域的应用边界。它不仅为口腔医学教育者筛选辅助工具提供实证依据,更开创性地揭示了模型性能随时间演变的规律——这对未来设计医学AI的持续学习系统具有里程碑式意义。当我们在惊叹AI的日常表现时,这项研究提醒我们:在关乎患者健康的专业领域,仍需保持审慎与批判的眼光。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号