编辑推荐:
牙髓根尖手术需专业知识,现有 AI 在牙科应用有限。本研究评估 ScholarGPT、ChatGPT-4o 和 Gemini 回答相关问题的表现,发现 ScholarGPT 正确率最高(97.7%),ChatGPT-4o 次之(90.1%),Gemini 最低(59.5%)。揭示学术数据库训练的 AI 在牙科信息准确性上的潜力。
在数字化医疗浪潮中,人工智能(AI)正深刻改变各领域诊疗模式,但在牙科尤其是牙髓病学领域的应用仍存空白。牙髓根尖手术(又称根尖切除术)作为常规根管治疗失败后的重要挽救手段,其操作涉及复杂解剖结构识别、材料选择及术后愈合评估,需深厚专业知识支撑。然而,当前 AI 工具在回答此类高专业性问题时的可靠性尚未明确,临床实践中误用非准确信息可能导致治疗失败甚至医疗风险。因此,系统评估 AI 模型在牙髓根尖手术领域的应答能力,成为推动 AI 安全融入牙科临床的关键科学问题。
土耳其克尔谢希尔大学(K?r?kkale University)的研究人员 Sevda Durust Baris 和 Kubilay Baris 针对这一挑战,开展了首项对比 ScholarGPT、ChatGPT-4o 与 Gemini 在牙髓根尖手术技术问题应答准确性的研究。该成果发表于《BMC Oral Health》,为 AI 在牙科的精准应用提供了关键证据。
研究团队基于牙髓病学权威著作《Cohen’s Pathways of the Pulp》(第 12 版),设计了 30 个涵盖手术适应证、操作技术、材料选择、术后愈合等核心内容的问题(含 12 个是非题和 18 个开放题)。通过两名研究者在 2024 年 11 月 25 日至 12 月 4 日期间,每日早、中、晚三次使用不同账号向三个平台提问,累计获取 5400 条回答。采用皮尔逊卡方检验(χ2=22.61,P<0.05)分析平台间应答差异,并通过科恩 kappa 检验(加权 kappa 值 0.85)验证评分者一致性。
结果
整体准确性差异显著
统计显示,ScholarGPT 以 97.7% 的正确率位居第一,ChatGPT-4o 为 90.1%,而 Gemini 仅 59.5%。错误率方面,Gemini 达 19.4%,显著高于 ScholarGPT(1.2%)和 ChatGPT-4o(2.9%),表明基于学术数据库训练的模型在专业问题处理上优势明显。
模型特性与准确性关联
ScholarGPT 作为针对学术场景优化的模型,其训练数据涵盖 Google Scholar、PubMed 等学术资源,擅长文献分析与专业内容生成,这解释了其高准确性。ChatGPT-4o 作为多模态模型,虽在通用医疗问题中表现良好,但在细分牙科领域知识深度不足。Gemini 因训练数据更侧重通用场景,专业问题处理能力显著落后。
讨论与意义
本研究首次系统验证了不同 AI 模型在牙髓根尖手术领域的应答能力,证实基于学术数据训练的 ScholarGPT 在专业问题上的可靠性,为牙科 AI 工具开发提供了新方向。尽管 ChatGPT-4o 在通用医疗场景应用广泛,但其在细分领域的局限性提示需针对性优化。Gemini 的低准确性则反映出通用型大语言模型(LLM)在高专业性场景的适用性不足。
研究同时指出,现有模型均非完全可靠,临床使用需结合专业判断。未来开发牙髓病学专用 GPT 模型,整合 Elsevier、Scopus 等权威数据库的全文资源,将有望提升 AI 在牙科的应用价值。该研究不仅为牙科 AI 的规范化应用奠定了方法学基础,也为跨学科合作开发精准医疗工具提供了思路,对推动 AI 在医疗领域的精细化、专业化发展具有重要意义。