综述：大型语言模型能否作为牙科信息的可靠工具？系统综述

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年05月27日 来源：International Dental Journal 3.2

编辑推荐：

　　本综述聚焦大型语言模型（LLMs）在牙科领域的应用，通过系统检索评估其性能。结果显示 LLMs 在教育中有辅助潜力，学生使用后成绩提升，但存在信息不准确、 citation 造假等问题，需结合验证来源并遵循伦理准则，不可替代临床决策。

大型语言模型在牙科领域应用的系统综述

研究背景与目的

人工智能（AI）技术蓬勃发展，基于深度学习 Transformer 架构的大型语言模型（LLMs）如 ChatGPT、Claude、Llama、Google Bard 等，凭借对自然语言的理解和生成能力，在医疗领域展现出应用潜力，尤其在牙科教育、诊断支持等方面受到关注。然而，其可能产生的错误信息引发担忧。本研究旨在系统评价 LLMs 在牙科领域回答问题的性能、不同模型在各牙科专科的表现差异及潜在局限性。

研究方法

遵循 PRISMA 指南，检索 PubMed/Medline、Scopus 等数据库截至 2024 年 9 月的文献，采用 PICO 框架构建研究问题，关键词涵盖 “人工智能”“牙科教育”“大型语言模型” 等，结合布尔运算符和语言筛选。纳入标准为评估 LLMs 回答临床或理论牙科问题性能的原创研究，排除会议论文、非英文文献等。通过 Rayyan 软件进行筛选，两位 reviewers 独立评估，分歧时引入第三位 reviewer 协商。采用 PROBAST 工具评估研究质量，从参与者、预测因子、结果和分析 domains 判定偏倚风险。

研究结果

共检索到 2030 篇文献，去重后剩余 1123 篇，最终纳入 31 项研究。研究涉及的 LLMs 包括 ChatGPT-3、ChatGPT-3.5、ChatGPT-4、Google Bard 等，覆盖 general dentistry、口腔放射学、牙髓病学等多个专科。

不同专科表现

General Dentistry：ChatGPT-4 在牙科 licensing exams 中表现较好，知识类问题 accuracy 较高，但在病例分析、数学计算及图像问题上存在局限。
口腔放射学：LLMs 在基础解剖知识回答上有一定能力，但图像解读 accuracy 低于 35%，学生使用 ChatGPT 完成作业的成绩优于传统文献研究。
牙髓病学：ChatGPT-4 在特定牙髓诊断场景中 accuracy 达 99%，但常规问题 accuracy 仅 57.33%，尚不能替代临床决策。
口腔外科：多数研究认为 LLMs 可作为教学辅助，但临床决策应用需谨慎，ChatGPT-4 accuracy 为 71.7%。
修复 dentistry：ChatGPT-3.5 和 Google Bard 在修复相关多选题中 accuracy 仅 35%-39%，可靠性不足。
口腔 medicine 和 pathology：LLMs 在口腔 cancer 等问题中 accuracy 达 80%，但治疗方案建议能力较弱，且存在 23.5% 的 fabricated citations。
种植学：ChatGPT-4 在种植学考试中 accuracy 84%，超过部分 human control groups。
正畸学：ChatGPT-4 在知识准确性上优于 Google Bard，患者对其回答满意度较高，但 orthodontists 评价较低。
牙周病学：ChatGPT-4 在牙周病分期诊断中 accuracy 超 70%，但缺乏科学引用限制其学术应用。
儿童 dentistry：ChatGPT-3.5 和 Google Gemini accuracy 仅 33%-35%，表现不足。

模型性能对比

ChatGPT-4 整体性能优于其他模型，在多数专科评估中 accuracy 领先，Google Bard 在响应速度和图形展示上有优势，但 accuracy 次之。Bing 等模型表现相对较差。

研究质量与局限性

约半数研究被评为 “高风险” 偏倚，主要问题包括未明确 LLM 版本、样本量未计算、问题难度未说明等。此外，部分研究使用公开试题可能导致 LLMs 性能虚高，且存在语言版本差异影响结果。

讨论与启示

LLMs 在牙科教育中可作为辅助工具，帮助学生提升学习效率，但需警惕学术不端风险。临床应用中，其可辅助诊断分析，但无法替代专业牙医决策，尤其在复杂病例和图像分析中局限明显。未来需开发针对 LLMs 的偏倚评估工具，拓展对 dental public health 等未充分研究领域的探索，加强模型与科学数据库整合，解决 citation 可靠性等问题。

结论

大型语言模型在牙科教育和部分临床场景中具有补充作用，但其准确性和伦理问题需重视。建议将其作为辅助工具，结合权威来源使用，进一步研究以优化性能并规范应用。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号