先进人工智能模型在年轻恒牙牙髓治疗中的性能比较：ChatGPT-4 Omni、DeepSeek与Gemini Advanced在准确性、完整性、响应时间和可读性上的评估

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年08月25日 来源：Journal of Endodontics 3.6

编辑推荐：

　　【编辑推荐】本研究首次系统评估了ChatGPT-4o、DeepSeek和Gemini Advanced三大AI模型在年轻恒牙牙髓治疗（pulp therapy）领域的表现。结果显示：ChatGPT-4o与DeepSeek在准确性（accuracy, P<.05）和完整性（completeness）上显著优于Gemini Advanced，但响应时间（response time）最长（P<.001）。研究创新性提出AI响应质量与可读性（readability）的临床权衡，为口腔医学AI工具选择提供实证依据。

亮点聚焦

引言

人工智能（AI）指能模拟人类认知功能（如学习、推理和决策）的系统¹。在医疗领域，基于大语言模型（LLM）的聊天机器人通过自然语言处理（NLP）技术生成类人响应²，正逐步应用于临床决策支持和工作流优化。

研究设计与伦理考量

本研究采用横断面比较设计，遵循TRIPOD-LLM（基于大语言模型的个体预后/诊断多变量预测模型透明报告）指南。数据采集于2025年2月，使用ChatGPT-4o、DeepSeek和Gemini Advanced三大模型。因不涉及人体或动物实验，豁免伦理审查。

主要与次要结局

核心指标为三大模型对年轻恒牙牙髓治疗问题的回答准确性（accuracy）和完整性（completeness），次要指标包括可读性（readability）、各参数相关性及响应时间（response time）。

答案评估

6位资深儿科牙医和牙髓病专家（临床经验≥10年）组成独立评审组，基于美国牙髓病学会（AAE）临床指南对21个问题的AI响应进行盲法评估。评估材料包含完整问答记录及原始临床文献。

结果

• 准确性：ChatGPT-4o（4.57±0.66）和DeepSeek（4.43±0.79）显著优于Gemini Advanced（4.29±0.94）（P<.05）

• 响应时间：Gemini Advanced最快（P<.001）

• 可读性：DeepSeek最佳，ChatGPT-4o因复杂句式得分最低

• 相关性：准确性与完整性呈强相关（ρ=0.719, P<.001）

讨论

研究发现：虽然三大模型均能提供有价值的临床参考，但ChatGPT-4o和DeepSeek在专业深度上更胜一筹。有趣的是，响应速度与内容质量呈微妙平衡——Gemini Advanced虽反应迅捷，但牺牲了细节严谨性。这提示临床工作者需根据场景需求（如急诊咨询vs教学培训）选择适配的AI工具。

结论

在年轻恒牙牙髓治疗领域，ChatGPT-4o和DeepSeek展现出更优的临床知识整合能力，但其复杂的语言表达可能对健康素养（health literacy）较低的用户构成障碍。未来AI开发需兼顾专业性（如引用AAE指南）与传播普适性。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号