综述:大型语言模型能否作为牙科信息的可靠工具?系统综述

【字体: 时间:2025年05月27日 来源:International Dental Journal 3.2

编辑推荐:

  本综述聚焦大型语言模型(LLMs)在牙科领域的应用,通过系统检索评估其性能。结果显示 LLMs 在教育中有辅助潜力,学生使用后成绩提升,但存在信息不准确、 citation 造假等问题,需结合验证来源并遵循伦理准则,不可替代临床决策。

  

大型语言模型在牙科领域应用的系统综述


研究背景与目的


人工智能(AI)技术蓬勃发展,基于深度学习 Transformer 架构的大型语言模型(LLMs)如 ChatGPT、Claude、Llama、Google Bard 等,凭借对自然语言的理解和生成能力,在医疗领域展现出应用潜力,尤其在牙科教育、诊断支持等方面受到关注。然而,其可能产生的错误信息引发担忧。本研究旨在系统评价 LLMs 在牙科领域回答问题的性能、不同模型在各牙科专科的表现差异及潜在局限性。

研究方法


遵循 PRISMA 指南,检索 PubMed/Medline、Scopus 等数据库截至 2024 年 9 月的文献,采用 PICO 框架构建研究问题,关键词涵盖 “人工智能”“牙科教育”“大型语言模型” 等,结合布尔运算符和语言筛选。纳入标准为评估 LLMs 回答临床或理论牙科问题性能的原创研究,排除会议论文、非英文文献等。通过 Rayyan 软件进行筛选,两位 reviewers 独立评估,分歧时引入第三位 reviewer 协商。采用 PROBAST 工具评估研究质量,从参与者、预测因子、结果和分析 domains 判定偏倚风险。

研究结果


共检索到 2030 篇文献,去重后剩余 1123 篇,最终纳入 31 项研究。研究涉及的 LLMs 包括 ChatGPT-3、ChatGPT-3.5、ChatGPT-4、Google Bard 等,覆盖 general dentistry、口腔放射学、牙髓病学等多个专科。

不同专科表现

  • General Dentistry:ChatGPT-4 在牙科 licensing exams 中表现较好,知识类问题 accuracy 较高,但在病例分析、数学计算及图像问题上存在局限。
  • 口腔放射学:LLMs 在基础解剖知识回答上有一定能力,但图像解读 accuracy 低于 35%,学生使用 ChatGPT 完成作业的成绩优于传统文献研究。
  • 牙髓病学:ChatGPT-4 在特定牙髓诊断场景中 accuracy 达 99%,但常规问题 accuracy 仅 57.33%,尚不能替代临床决策。
  • 口腔外科:多数研究认为 LLMs 可作为教学辅助,但临床决策应用需谨慎,ChatGPT-4 accuracy 为 71.7%。
  • 修复 dentistry:ChatGPT-3.5 和 Google Bard 在修复相关多选题中 accuracy 仅 35%-39%,可靠性不足。
  • 口腔 medicine 和 pathology:LLMs 在口腔 cancer 等问题中 accuracy 达 80%,但治疗方案建议能力较弱,且存在 23.5% 的 fabricated citations。
  • 种植学:ChatGPT-4 在种植学考试中 accuracy 84%,超过部分 human control groups。
  • 正畸学:ChatGPT-4 在知识准确性上优于 Google Bard,患者对其回答满意度较高,但 orthodontists 评价较低。
  • 牙周病学:ChatGPT-4 在牙周病分期诊断中 accuracy 超 70%,但缺乏科学引用限制其学术应用。
  • 儿童 dentistry:ChatGPT-3.5 和 Google Gemini accuracy 仅 33%-35%,表现不足。

模型性能对比

ChatGPT-4 整体性能优于其他模型,在多数专科评估中 accuracy 领先,Google Bard 在响应速度和图形展示上有优势,但 accuracy 次之。Bing 等模型表现相对较差。

研究质量与局限性


约半数研究被评为 “高风险” 偏倚,主要问题包括未明确 LLM 版本、样本量未计算、问题难度未说明等。此外,部分研究使用公开试题可能导致 LLMs 性能虚高,且存在语言版本差异影响结果。

讨论与启示


LLMs 在牙科教育中可作为辅助工具,帮助学生提升学习效率,但需警惕学术不端风险。临床应用中,其可辅助诊断分析,但无法替代专业牙医决策,尤其在复杂病例和图像分析中局限明显。未来需开发针对 LLMs 的偏倚评估工具,拓展对 dental public health 等未充分研究领域的探索,加强模型与科学数据库整合,解决 citation 可靠性等问题。

结论


大型语言模型在牙科教育和部分临床场景中具有补充作用,但其准确性和伦理问题需重视。建议将其作为辅助工具,结合权威来源使用,进一步研究以优化性能并规范应用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号