YOLOv11与YOLOv12在口腔全景片自动诊断标注中的性能比较研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Odontology》：Deep Learning–Based Automated Diagnostic Charting on Panoramic Radiography: Comparison of YOLOv11 and YOLOv12

【字体：大中小】 时间：2026年02月18日 来源：Odontology 2.4

编辑推荐：

　　为优化临床工作流程并减少诊断差异，本研究对下一代深度学习架构YOLOv11和YOLOv12在全景X光片上自动检测13种牙科疾病的表现进行了对比分析。结果表明，YOLOv11在内部测试集上mAP@0.5达0.857，且对外部数据集展现出稳健的泛化能力(mAP@0.5: 0.806)，识别其为更鲁棒可靠的架构，可作为临床决策支持的可靠“第二意见”，提升日常诊断的准确性与效率。

在当今数字化的医疗时代，口腔全景X光片（Panoramic Radiograph）已成为牙科诊断、治疗规划和疾病监测不可或缺的工具。然而，解读这些二维图像面临着诸多挑战，例如解剖结构的重叠、图像畸变和伪影等，这些因素都可能导致不同医生之间的诊断结果出现差异。尽管人工智能（AI）及其分支深度学习（Deep Learning）技术已展现出变革牙科放射学的潜力，能够通过卷积神经网络（CNN）快速分析大量影像数据以提高诊断准确性，但现有研究大多聚焦于有限的几种牙科疾病。一个关键的问题悬而未决：面对涵盖龋齿、种植体、牙槽骨吸收、阻生牙等13种不同状况的综合诊断标注任务，究竟哪一种前沿的深度学习模型能够提供最准确、最可靠的支持？为了回答这一问题，一项发表于《Odontology》的研究对两种新一代目标检测架构——YOLOv11与YOLOv12——进行了一场“巅峰对决”。

本研究采用了一个包含2297张全景X光片的混合数据集，其中1579张来自单一机构，718张来自Roboflow Universe公共数据库，用以测试模型的泛化能力。研究人员采用统一的标准训练协议对两个模型进行训练，旨在检测包括龋齿、种植体、牙槽骨吸收和阻生牙在内的13种牙科状况。性能评估则在内部和外部测试集上，使用平均精度均值（mAP@0.5）、精确率、召回率和F1分数等指标进行。

研究结果表明，YOLOv11架构在综合性能上显著优于YOLOv12。在验证集上，YOLOv11的整体mAP@0.5达到了0.863，而YOLOv12为0.824。在最终的内部测试集上，YOLOv11的mAP@0.5为0.857，平均F1分数为0.842，进一步证实了其优越性。尤为重要的是，在面对来自不同分布的外部未见数据集时，YOLOv11展现了强大的泛化能力，mAP@0.5仍保持在0.806，远超先前类似研究中使用更早版本模型所报告的结果（如YOLOv8的0.451），这表明新版本架构在真实临床数据上的应用潜力更大。

从具体疾病类型的检测效果来看，模型在识别边界清晰、影像对比度高的目标时表现最佳。例如，“牙冠”（Crowns）、“种植体”（Implants）和“充填体”（Fillings）的检测F1分数很高。这主要归因于这些牙科状况具有一致且独特的形态特征，为检测算法提供了明确信号。相比之下，对于形态多变、影像对比度低的病症，如“牙槽骨吸收”（Bone loss）、“根分叉病变”（Furcation）、“牙折”（Fractured tooth）和“龋齿”（Caries），两种模型的检测性能均相对较低。尽管数据集中“牙槽骨吸收”的案例数量相对充足，但其检测性能仍然偏低，这可能是由于其形态广泛多变，模型难以捕捉一致的影像模式。此外，“牙折”和“根分叉病变”样本数量较少，也可能影响了其检测性能。有趣的是，尽管“种植体”类别的样本量也相对较小，但由于其影像模式强烈且一致，依然获得了很高的检测准确度，这说明鲜明的影像特征可以在一定程度上弥补样本量的不足。

研究还通过可视化结果直观展示了模型的成功与失败案例。例如，在一张全景片中，模型成功同时检测出了“阻生牙”、“龋齿”、“残根”和“充填体”等多个真实阳性目标。然而，也存在分类错误的假阳性案例，例如将一颗“未萌出牙”错误地标注为“阻生牙”。这些案例揭示了模型在处理形态相似类别时面临的挑战。

本研究也存在一些局限性。首先，训练和验证数据均来自单一机构和使用单一型号的设备，虽然保证了内部一致性，但可能限制了模型对不同设备和人群变异性的适应性。其次，数据标注由单一口腔颌面放射科医生完成，尽管通过重标验证显示了几乎完美的一致性（科恩卡帕值κ = 0.976），但缺乏第二位医生的验证，无法完全排除个人标注偏见的可能性。最后，由于图像随机选择，各类牙科状况的数据分布并不均衡，少数类别样本量不足可能影响了整体结果。

尽管存在这些局限，该研究的发现对AI系统在临床实践中的潜在作用具有重要意义。研究人员开发的基于YOLOv11的系统可以作为一种“第二意见”或预筛查工具，在患者流量大、工作流程快的牙科医院中，加速诊断流程，快速识别常见且特征明显的牙科状况。然而，模型在部分关键治疗所需病症（如骨吸收和龋齿）上较低的性能，以及其存在误判的可能性，都强烈提示此类系统应作为辅助工具集成到临床工作中，用于支持而非替代临床医生的最终判断。通过进一步优化，此类AI支持模型还可用于患者初次就诊时的自动化牙科图表记录，提供快速、标准化的初步评估。此外，它们也有望成为教育领域中有价值的结构化培训工具。

总而言之，这项研究成功地比较了YOLOv11和YOLOv12这两种现代目标检测架构在全景X光片上自动检测13种牙科状况的性能。结果表明，YOLOv11架构表现出显著更优的性能，尤其在识别细微和形态复杂的病变方面。这一高性能模型有潜力成为临床医生有价值的“第二意见”，提升诊断一致性并加速临床工作流。然而，模型在不同牙科状况间表现的差异也证实，该技术应被定位为决策支持工具，而非临床专业知识的替代品。未来的工作应侧重于使用更大规模、多中心的数据集来验证模型的鲁棒性和泛化能力，以进一步推动其临床整合的潜力。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号