编辑推荐:
本综述聚焦大型语言模型(LLMs)在牙科领域的应用,通过系统检索评估其性能。结果显示 LLMs 在教育中有辅助潜力,学生使用后成绩提升,但存在信息不准确、 citation 造假等问题,需结合验证来源并遵循伦理准则,不可替代临床决策。
大型语言模型在牙科领域应用的系统综述
研究背景与目的
人工智能(AI)技术蓬勃发展,基于深度学习 Transformer 架构的大型语言模型(LLMs)如 ChatGPT、Claude、Llama、Google Bard 等,凭借对自然语言的理解和生成能力,在医疗领域展现出应用潜力,尤其在牙科教育、诊断支持等方面受到关注。然而,其可能产生的错误信息引发担忧。本研究旨在系统评价 LLMs 在牙科领域回答问题的性能、不同模型在各牙科专科的表现差异及潜在局限性。
研究方法
遵循 PRISMA 指南,检索 PubMed/Medline、Scopus 等数据库截至 2024 年 9 月的文献,采用 PICO 框架构建研究问题,关键词涵盖 “人工智能”“牙科教育”“大型语言模型” 等,结合布尔运算符和语言筛选。纳入标准为评估 LLMs 回答临床或理论牙科问题性能的原创研究,排除会议论文、非英文文献等。通过 Rayyan 软件进行筛选,两位 reviewers 独立评估,分歧时引入第三位 reviewer 协商。采用 PROBAST 工具评估研究质量,从参与者、预测因子、结果和分析 domains 判定偏倚风险。
研究结果
共检索到 2030 篇文献,去重后剩余 1123 篇,最终纳入 31 项研究。研究涉及的 LLMs 包括 ChatGPT-3、ChatGPT-3.5、ChatGPT-4、Google Bard 等,覆盖 general dentistry、口腔放射学、牙髓病学等多个专科。
不同专科表现
- General Dentistry:ChatGPT-4 在牙科 licensing exams 中表现较好,知识类问题 accuracy 较高,但在病例分析、数学计算及图像问题上存在局限。
- 口腔放射学:LLMs 在基础解剖知识回答上有一定能力,但图像解读 accuracy 低于 35%,学生使用 ChatGPT 完成作业的成绩优于传统文献研究。
- 牙髓病学:ChatGPT-4 在特定牙髓诊断场景中 accuracy 达 99%,但常规问题 accuracy 仅 57.33%,尚不能替代临床决策。
- 口腔外科:多数研究认为 LLMs 可作为教学辅助,但临床决策应用需谨慎,ChatGPT-4 accuracy 为 71.7%。
- 修复 dentistry:ChatGPT-3.5 和 Google Bard 在修复相关多选题中 accuracy 仅 35%-39%,可靠性不足。
- 口腔 medicine 和 pathology:LLMs 在口腔 cancer 等问题中 accuracy 达 80%,但治疗方案建议能力较弱,且存在 23.5% 的 fabricated citations。
- 种植学:ChatGPT-4 在种植学考试中 accuracy 84%,超过部分 human control groups。
- 正畸学:ChatGPT-4 在知识准确性上优于 Google Bard,患者对其回答满意度较高,但 orthodontists 评价较低。
- 牙周病学:ChatGPT-4 在牙周病分期诊断中 accuracy 超 70%,但缺乏科学引用限制其学术应用。
- 儿童 dentistry:ChatGPT-3.5 和 Google Gemini accuracy 仅 33%-35%,表现不足。
模型性能对比
ChatGPT-4 整体性能优于其他模型,在多数专科评估中 accuracy 领先,Google Bard 在响应速度和图形展示上有优势,但 accuracy 次之。Bing 等模型表现相对较差。
研究质量与局限性
约半数研究被评为 “高风险” 偏倚,主要问题包括未明确 LLM 版本、样本量未计算、问题难度未说明等。此外,部分研究使用公开试题可能导致 LLMs 性能虚高,且存在语言版本差异影响结果。
讨论与启示
LLMs 在牙科教育中可作为辅助工具,帮助学生提升学习效率,但需警惕学术不端风险。临床应用中,其可辅助诊断分析,但无法替代专业牙医决策,尤其在复杂病例和图像分析中局限明显。未来需开发针对 LLMs 的偏倚评估工具,拓展对 dental public health 等未充分研究领域的探索,加强模型与科学数据库整合,解决 citation 可靠性等问题。
结论
大型语言模型在牙科教育和部分临床场景中具有补充作用,但其准确性和伦理问题需重视。建议将其作为辅助工具,结合权威来源使用,进一步研究以优化性能并规范应用。