先进人工智能模型在年轻恒牙牙髓治疗中的性能比较:ChatGPT-4 Omni、DeepSeek与Gemini Advanced在准确性、完整性、响应时间和可读性上的评估

【字体: 时间:2025年08月25日 来源:Journal of Endodontics 3.6

编辑推荐:

  【编辑推荐】本研究首次系统评估了ChatGPT-4o、DeepSeek和Gemini Advanced三大AI模型在年轻恒牙牙髓治疗(pulp therapy)领域的表现。结果显示:ChatGPT-4o与DeepSeek在准确性(accuracy, P<.05)和完整性(completeness)上显著优于Gemini Advanced,但响应时间(response time)最长(P<.001)。研究创新性提出AI响应质量与可读性(readability)的临床权衡,为口腔医学AI工具选择提供实证依据。

  

亮点聚焦

引言

人工智能(AI)指能模拟人类认知功能(如学习、推理和决策)的系统1。在医疗领域,基于大语言模型(LLM)的聊天机器人通过自然语言处理(NLP)技术生成类人响应2,正逐步应用于临床决策支持和工作流优化。

研究设计与伦理考量

本研究采用横断面比较设计,遵循TRIPOD-LLM(基于大语言模型的个体预后/诊断多变量预测模型透明报告)指南。数据采集于2025年2月,使用ChatGPT-4o、DeepSeek和Gemini Advanced三大模型。因不涉及人体或动物实验,豁免伦理审查。

主要与次要结局

核心指标为三大模型对年轻恒牙牙髓治疗问题的回答准确性(accuracy)和完整性(completeness),次要指标包括可读性(readability)、各参数相关性及响应时间(response time)。

答案评估

6位资深儿科牙医和牙髓病专家(临床经验≥10年)组成独立评审组,基于美国牙髓病学会(AAE)临床指南对21个问题的AI响应进行盲法评估。评估材料包含完整问答记录及原始临床文献。

结果

• 准确性:ChatGPT-4o(4.57±0.66)和DeepSeek(4.43±0.79)显著优于Gemini Advanced(4.29±0.94)(P<.05)

• 响应时间:Gemini Advanced最快(P<.001)

• 可读性:DeepSeek最佳,ChatGPT-4o因复杂句式得分最低

• 相关性:准确性与完整性呈强相关(ρ=0.719, P<.001)

讨论

研究发现:虽然三大模型均能提供有价值的临床参考,但ChatGPT-4o和DeepSeek在专业深度上更胜一筹。有趣的是,响应速度与内容质量呈微妙平衡——Gemini Advanced虽反应迅捷,但牺牲了细节严谨性。这提示临床工作者需根据场景需求(如急诊咨询vs教学培训)选择适配的AI工具。

结论

在年轻恒牙牙髓治疗领域,ChatGPT-4o和DeepSeek展现出更优的临床知识整合能力,但其复杂的语言表达可能对健康素养(health literacy)较低的用户构成障碍。未来AI开发需兼顾专业性(如引用AAE指南)与传播普适性。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号