人工智能在牙髓根尖手术技术问题应答中的多模型性能评估

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年05月23日 来源：BMC Oral Health 2.6

编辑推荐：

　　牙髓根尖手术需专业知识，现有 AI 在牙科应用有限。本研究评估 ScholarGPT、ChatGPT-4o 和 Gemini 回答相关问题的表现，发现 ScholarGPT 正确率最高（97.7%），ChatGPT-4o 次之（90.1%），Gemini 最低（59.5%）。揭示学术数据库训练的 AI 在牙科信息准确性上的潜力。

在数字化医疗浪潮中，人工智能（AI）正深刻改变各领域诊疗模式，但在牙科尤其是牙髓病学领域的应用仍存空白。牙髓根尖手术（又称根尖切除术）作为常规根管治疗失败后的重要挽救手段，其操作涉及复杂解剖结构识别、材料选择及术后愈合评估，需深厚专业知识支撑。然而，当前 AI 工具在回答此类高专业性问题时的可靠性尚未明确，临床实践中误用非准确信息可能导致治疗失败甚至医疗风险。因此，系统评估 AI 模型在牙髓根尖手术领域的应答能力，成为推动 AI 安全融入牙科临床的关键科学问题。

土耳其克尔谢希尔大学（K?r?kkale University）的研究人员 Sevda Durust Baris 和 Kubilay Baris 针对这一挑战，开展了首项对比 ScholarGPT、ChatGPT-4o 与 Gemini 在牙髓根尖手术技术问题应答准确性的研究。该成果发表于《BMC Oral Health》，为 AI 在牙科的精准应用提供了关键证据。

研究团队基于牙髓病学权威著作《Cohen’s Pathways of the Pulp》（第 12 版），设计了 30 个涵盖手术适应证、操作技术、材料选择、术后愈合等核心内容的问题（含 12 个是非题和 18 个开放题）。通过两名研究者在 2024 年 11 月 25 日至 12 月 4 日期间，每日早、中、晚三次使用不同账号向三个平台提问，累计获取 5400 条回答。采用皮尔逊卡方检验（χ2=22.61，P<0.05）分析平台间应答差异，并通过科恩 kappa 检验（加权 kappa 值 0.85）验证评分者一致性。

结果

整体准确性差异显著
统计显示，ScholarGPT 以 97.7% 的正确率位居第一，ChatGPT-4o 为 90.1%，而 Gemini 仅 59.5%。错误率方面，Gemini 达 19.4%，显著高于 ScholarGPT（1.2%）和 ChatGPT-4o（2.9%），表明基于学术数据库训练的模型在专业问题处理上优势明显。
模型特性与准确性关联
ScholarGPT 作为针对学术场景优化的模型，其训练数据涵盖 Google Scholar、PubMed 等学术资源，擅长文献分析与专业内容生成，这解释了其高准确性。ChatGPT-4o 作为多模态模型，虽在通用医疗问题中表现良好，但在细分牙科领域知识深度不足。Gemini 因训练数据更侧重通用场景，专业问题处理能力显著落后。

讨论与意义

本研究首次系统验证了不同 AI 模型在牙髓根尖手术领域的应答能力，证实基于学术数据训练的 ScholarGPT 在专业问题上的可靠性，为牙科 AI 工具开发提供了新方向。尽管 ChatGPT-4o 在通用医疗场景应用广泛，但其在细分领域的局限性提示需针对性优化。Gemini 的低准确性则反映出通用型大语言模型（LLM）在高专业性场景的适用性不足。

研究同时指出，现有模型均非完全可靠，临床使用需结合专业判断。未来开发牙髓病学专用 GPT 模型，整合 Elsevier、Scopus 等权威数据库的全文资源，将有望提升 AI 在牙科的应用价值。该研究不仅为牙科 AI 的规范化应用奠定了方法学基础，也为跨学科合作开发精准医疗工具提供了思路，对推动 AI 在医疗领域的精细化、专业化发展具有重要意义。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号