由人工智能驱动的聊天机器人在牙科专业考试中回答正畸相关问题的表现:准确性与信息来源评估

【字体: 时间:2025年12月17日 来源:Journal of Dental Sciences 3.1

编辑推荐:

  人工智能辅助正畸学教育评估:ChatGPT-5.0、Claude 3.7与Copilot的准确性及引用可靠性比较。研究通过分析129道土耳其正畸学专考题(2012-2021),发现ChatGPT-5.0(82.2%)< Claude 3.7(83.7%)< Copilot(85.3%),但Copilot视觉分析题正确率仅33.3%。引用方面,ChatGPT-5.0主要引用教科书和英文论文(79.5%+14.6%),Claude 3.7引用率仅11.7%,Copilot多引用土耳其本地资料(43.7% Turkish articles)。研究证实AI在文本推理上表现优异,但视觉分析和跨语言引用仍存短板,强调AI作为教育辅助工具需结合专家验证。

  
本研究由土耳其加齐大学正畸学系的Berrak ?akmak等人主导,聚焦于评估AI聊天机器人对正畸学专业考试(DUS)问题的解答能力及信息来源可靠性。研究选取2012-2021年间129道正畸学多选题,涵盖知识型、场景型、评估型及视觉分析型四大类,通过对比ChatGPT-5.0、Claude 3.7和Copilot-GPT-5.0三个模型的表现,揭示AI在口腔医学教育中的潜力与局限。

研究显示,三款模型整体准确率均超过80%,其中Copilot以85.3%表现最优,显著优于ChatGPT-5.0(82.2%)和Claude 3.7(83.7%)。值得注意的是,场景型问题中Copilot实现100%准确率,而视觉分析题组三模型准确率均低于60%。具体而言,视觉类问题正确率仅为33.3%-55.6%,这直接反映了当前AI在图像处理和临床视觉推理方面的短板。

在信息溯源方面,ChatGPT-5.0展现出最严谨的文献引用习惯,82.8%的答案援引国际教材或英文论文,其342条引用中79.5%来自权威教科书,14.6%为英文期刊。Copilot则偏好本土资源,43.7%的引用来自土耳其学术文章,26.1%为教育类材料。Claude 3.7在61.6%的案例中拒绝引用外部资料,这一现象可能与模型架构设计相关。研究同时发现,三款模型对Bloom分类学中高阶认知任务(分析、评价、创造)的响应准确率普遍低于基础认知任务(记忆、理解、应用)。

该研究创新性地将Bloom分类学与视觉分析需求相结合,发现场景型问题虽属于应用层级,但Copilot通过强化文本推理训练取得突破。而视觉分析题组的普遍低效,印证了现有多模态模型在图像特征提取和空间关系构建方面的技术瓶颈。研究特别指出,DUS考试自2018年起引入9道视觉分析题,占比7.1%,这种题型结构变化对AI性能评估具有重要参考价值。

在模型局限性方面,研究揭示三大技术瓶颈:首先,现有AI系统对非结构化临床图像的处理能力不足,难以识别X光片中细微的骨结构变化或矫治器佩戴误差;其次,多模态模型的训练数据存在文本主导的偏差,正畸学特有的三维矫治力学分析、生物力学模拟等场景仍需优化;最后,跨语言知识整合存在障碍,土耳其本地教材与英文文献的引用差异(ChatGPT-5.0英文文献占比14.6%,Copilot本土文献占比43.7%)可能影响知识传递的完整性。

研究同时验证了专家评审机制的有效性,通过两位正畸医师的独立验证(Cohen's Kappa系数达0.89-1.00),确保结果可靠性。在统计方法上,采用中等效应量(0.5)的样本量计算(n=97),结合SPSS 31.0进行卡方检验,发现模型间差异在P<0.05水平具有统计学意义,但认知层级间的准确率下降(P=0.01)显示模型对高阶思维任务的整体适应性有限。

临床启示方面,研究证实AI可作为基础知识的补充工具,在记忆与理解层面准确率达82.8%-86.2%,但在需要视觉诊断(如错颌畸形评估)或综合分析的复杂场景中仍存在明显短板。建议临床教育中采用"AI辅助+专家解读"的混合模式,特别是对涉及影像学判读和三维空间重建的内容。此外,本土化知识库的构建(如Copilot对土耳其正畸指南的引用)为区域化AI应用提供了新思路。

研究局限性主要体现在时间跨度和样本范围:首先,排除2022年后新增题型可能影响结论的时效性;其次,仅测试多选题形式,未涉及病例分析、手术模拟等综合考核方式。语言特异性方面,完全以土耳其语交互可能影响跨文化知识迁移能力评估,后续研究需增加多语言对照实验。

该成果为AI在正畸教育中的应用提供了重要基准数据。建议后续研究方向包括:开发正畸学专用多模态模型、建立动态更新的临床知识图谱、设计结合视觉-文本的混合评估体系。同时,应建立AI辅助教育的伦理框架,明确其作为教学工具的辅助定位,避免过度依赖带来的临床决策风险。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号