ChatGPT 4o、DeepSeek R1与Gemini 2 Pro在固定修复学问题应答中的纵向性能对比研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年06月06日 来源：The Journal of Prosthetic Dentistry 4.3

编辑推荐：

　　本研究针对ChatGPT 4o、DeepSeek R1和Gemini 2 Pro在固定修复学MC（多选题）和SA（简答题）应答中的准确性与时效性展开纵向实验。通过4周重复测量发现，ChatGPT在MC中表现最优（P<0.017），Gemini在SA中持续改进，但总体准确率仅43%-71%，揭示了当前AI模型在临床知识传递中的局限性，为口腔医学教育AI工具开发提供实证依据。

在数字化医疗快速发展的今天，人工智能聊天机器人正逐步渗透到医学教育和临床决策支持领域。然而，这些模型在专业医学知识传递中的准确性和稳定性始终存在争议——尤其像固定修复学（Fixed Prosthodontics）这类需要高度专业判断的学科，一个错误的建议可能导致临床灾难。更令人担忧的是，主流模型如ChatGPT、DeepSeek和Gemini的迭代版本在特定医学场景中的表现差异尚未系统评估，而用户交互是否会改变其应答性能更是未知领域。

正是基于这些关键问题，来自国内的研究团队在《The Journal of Prosthetic Dentistry》发表了这项开创性研究。研究人员设计了一个精巧的纵向实验：从经典教材《Contemporary Fixed Prosthodontics》（第六版）中精选40道题目（20MC+20SA），在4周内每周通过10个独立账户向三大模型提问，并在每次交互后提供正确答案但清除记忆缓存。采用广义估计方程（GEE）分析时间与模型类型的交互效应，用Kendall W系数评估应答可重复性。

关键技术方法

纵向重复测量设计：4周时间序列观察模型性能演变
标准化问题库：基于权威教材构建20MC（四选项）和20SA问题
多账户控制：每个模型使用10个独立账户消除偶然误差
统计模型：广义估计方程（GEE）分析主效应与交互作用，Mann-Whitney U检验进行事后比较

MATERIAL AND METHODS
研究显示所有模型均具有显著可重复性（P<0.001），其中Gemini对SA问题的应答一致性最高（Kendall W≥0.8）。值得注意的是，DeepSeek在第四周MC应答中出现唯一例外（W<0.8），提示其长期记忆管理可能存在特殊机制。

RESULTS
性能对比呈现戏剧性差异：ChatGPT和DeepSeek在MC中显著优于Gemini（P<0.017），但Gemini在第三周SA应答中反超DeepSeek（P=0.007）。时间维度上，Gemini展现SA持续改进曲线，DeepSeek则在末期突然提升，而ChatGPT保持惊人稳定性。

DISCUSSION
三大模型43%-71%的总体准确率远未达临床可用标准。特别值得警惕的是，高重复性（如Gemini SA W=0.92）与正确率无必然关联，这彻底否定了"一致性即可靠性"的常见误解。研究首次证实：模型性能可经反馈提升（Gemini SA提升14%，DeepSeek末期MC突增），但改善模式存在显著异质性。

CONCLUSIONS

ChatGPT成为MC问题最可靠选择，其稳定性可能源于GPT-4o架构的强化推理能力
Gemini在SA领域的渐进式改进揭示了反馈微调（Fine-tuning）的有效性
DeepSeek的末期性能跃迁暗示可能存在延迟学习机制
所有模型均未通过临床可靠性验证，强调必须建立医学AI的专项评估框架

这项研究犹如一剂清醒剂，明确指出当前AI在专业医学领域的应用边界。它不仅为口腔医学教育者筛选辅助工具提供实证依据，更开创性地揭示了模型性能随时间演变的规律——这对未来设计医学AI的持续学习系统具有里程碑式意义。当我们在惊叹AI的日常表现时，这项研究提醒我们：在关乎患者健康的专业领域，仍需保持审慎与批判的眼光。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号