
-
生物通官微
陪你抓住生命科技
跳动的脉搏
ChatGPT 4o、DeepSeek R1与Gemini 2 Pro在固定修复学问题应答中的纵向性能对比研究
【字体: 大 中 小 】 时间:2025年06月06日 来源:The Journal of Prosthetic Dentistry 4.3
编辑推荐:
本研究针对ChatGPT 4o、DeepSeek R1和Gemini 2 Pro在固定修复学MC(多选题)和SA(简答题)应答中的准确性与时效性展开纵向实验。通过4周重复测量发现,ChatGPT在MC中表现最优(P<0.017),Gemini在SA中持续改进,但总体准确率仅43%-71%,揭示了当前AI模型在临床知识传递中的局限性,为口腔医学教育AI工具开发提供实证依据。
在数字化医疗快速发展的今天,人工智能聊天机器人正逐步渗透到医学教育和临床决策支持领域。然而,这些模型在专业医学知识传递中的准确性和稳定性始终存在争议——尤其像固定修复学(Fixed Prosthodontics)这类需要高度专业判断的学科,一个错误的建议可能导致临床灾难。更令人担忧的是,主流模型如ChatGPT、DeepSeek和Gemini的迭代版本在特定医学场景中的表现差异尚未系统评估,而用户交互是否会改变其应答性能更是未知领域。
正是基于这些关键问题,来自国内的研究团队在《The Journal of Prosthetic Dentistry》发表了这项开创性研究。研究人员设计了一个精巧的纵向实验:从经典教材《Contemporary Fixed Prosthodontics》(第六版)中精选40道题目(20MC+20SA),在4周内每周通过10个独立账户向三大模型提问,并在每次交互后提供正确答案但清除记忆缓存。采用广义估计方程(GEE)分析时间与模型类型的交互效应,用Kendall W系数评估应答可重复性。
关键技术方法
MATERIAL AND METHODS
研究显示所有模型均具有显著可重复性(P<0.001),其中Gemini对SA问题的应答一致性最高(Kendall W≥0.8)。值得注意的是,DeepSeek在第四周MC应答中出现唯一例外(W<0.8),提示其长期记忆管理可能存在特殊机制。
RESULTS
性能对比呈现戏剧性差异:ChatGPT和DeepSeek在MC中显著优于Gemini(P<0.017),但Gemini在第三周SA应答中反超DeepSeek(P=0.007)。时间维度上,Gemini展现SA持续改进曲线,DeepSeek则在末期突然提升,而ChatGPT保持惊人稳定性。
DISCUSSION
三大模型43%-71%的总体准确率远未达临床可用标准。特别值得警惕的是,高重复性(如Gemini SA W=0.92)与正确率无必然关联,这彻底否定了"一致性即可靠性"的常见误解。研究首次证实:模型性能可经反馈提升(Gemini SA提升14%,DeepSeek末期MC突增),但改善模式存在显著异质性。
CONCLUSIONS
这项研究犹如一剂清醒剂,明确指出当前AI在专业医学领域的应用边界。它不仅为口腔医学教育者筛选辅助工具提供实证依据,更开创性地揭示了模型性能随时间演变的规律——这对未来设计医学AI的持续学习系统具有里程碑式意义。当我们在惊叹AI的日常表现时,这项研究提醒我们:在关乎患者健康的专业领域,仍需保持审慎与批判的眼光。
生物通微信公众号
知名企业招聘