标注质量与金标准选择对深度学习AI模型早期龋损检测准确性的影响
《Clinical Oral Investigations》:Accuracy of deep learning-based AI models for early caries lesion detection: the influence of annotation quality and reference choice
【字体:
大
中
小
】
时间:2025年12月05日
来源:Clinical Oral Investigations 3.1
编辑推荐:
本研究针对AI龋齿检测模型评估中存在的参考标准偏差问题,通过系统比较不同标注策略(包括单一牙医标注、聚合标注及基于显微CT的金标准)对模型性能的影响。研究发现,虽然训练标注策略对AI准确性无显著影响,但评估时若采用与训练数据匹配的标注标准会显著高估模型性能(p<0.001)。该研究强调了建立独立、临床相关评估标准的重要性,为AI龋齿检测工具的临床转化和监管审批提供了关键依据。
在口腔医学领域,早期邻面龋的准确检测始终是一项重大挑战。虽然咬翼片(bitewing radiographs)是诊断龋齿的重要工具,但对于早期龋损(RA1期,即龋坏仅限于釉质外1/2)的检测灵敏度却十分有限。这种检测不足可能导致错过最佳预防干预时机,影响患者的口腔健康结局。
近年来,基于人工智能(AI)的龋齿检测工具逐渐应用于牙科实践,一些研究甚至报道其准确性超过牙医。然而,这些AI模型通常使用牙医在X线片上的标注进行训练,这种方法存在几个固有缺陷:标注噪声(annotation noise)、缺乏统一的标注协议、牙医诊断灵敏度有限(特别是对早期病变),以及使用这些可能有问题的标注作为验证AI模型的参考标准(reference standard),可能导致对模型性能的错误估计。
为了解决这些问题,Ricardo E. Gonzalez-Valenzuela等人开展了一项深入研究,旨在评估标注方法的选择如何影响AI模型在早期龋损检测中的准确性,并探讨评估参考标准的选择是否会带来显著的评估偏差。该研究近期发表于《Clinical Oral Investigations》杂志。
研究人员利用ACTA-DIRECT数据集(版本2),该数据集包含离体牙齿的X线片和显微CT(micro-CT)扫描图像,并提供了初始邻面龋的多种标注。研究的关键创新在于引入了基于显微CT的标注作为高质量参考标准,这种方法通过高分辨率成像提供更客观、准确的龋损标签,有望克服传统牙医标注的局限性。
研究团队训练了多个基于nnUNet架构的龋损分割模型,每种模型使用不同的标注数据进行训练:(1)单个牙医标注;(2)聚合标注策略(多数投票法、共识会议法、STAPLE算法);(3)基于显微CT的标注。随后,他们采用两种方法评估模型的准确性:(1)与基于显微CT的标注进行比较(微CT评估方法);(2)与模型训练时使用的特定标注类型进行比较(训练匹配标注评估方法)。
主要技术方法包括:使用扩展版的ACTA-DIRECT数据集(含2270张图像),采用五种角度(-10°、-5°、0°、+5°、+10°)拍摄的X线片,聚焦牙冠邻面区域;基于nnUNet架构定制化开发龋损分割模型,并进行5折交叉验证;使用显微CT投影标注作为金标准,并采用多水平逻辑回归分析进行统计比较。
当以显微CT标注为参考标准时,AI模型的表现显示(表1),基于共识标注训练的模型获得了最高的灵敏度(0.33)和平衡准确度(0.63)。所有模型的特异度均较高,其中基于专家2标注训练的模型特异度最高(0.97)。当采用训练匹配标注评估时(表2),模型性能普遍提高,基于共识标注训练的模型灵敏度达到0.44,平衡准确度为0.69。统计分析表明,与微CT参考标准相比,使用训练匹配参考标准时,所有模型的诊断准确性均显著更高(p < 0.001),优势比(Odds Ratio)在2.26至4.19之间。
表3展示了仅针对正确识别的病变(真阳性,TP)计算的Dice相似系数(Dice Similarity Coefficient, DSC)。在微CT评估方法下,基于专家1标注训练的模型在23个正确识别的病变中获得了最高的DSC(0.64)。在训练匹配标注评估方法下,基于共识标注训练的模型在44个正确识别的病变中获得了最高的DSC(0.74)。
图3显示了以显微CT标注为参考标准时各AI模型的受试者工作特征(Receiver Operating Characteristic, ROC)曲线。基于显微CT标注和共识标注训练的模型获得了最高的曲线下面积(Area Under the Curve, AUC)值(0.67)。图4显示了训练匹配标注评估方法下的ROC曲线,基于专家3标注训练的模型AUC值最高(0.81),基于共识标注的模型次之(0.77)。
如表4所示,AI模型对较深的早期龋损(RA2-RA3)的灵敏度高于对非常早期病变(RA1)的灵敏度,这反映了检测初始病变的难度更大。特异度在各分期和标注类型中均保持较高水平(约0.92至0.98)。AI模型检测RA1期龋损的AUC值范围为0.49至0.56,而检测RA2-RA3期龋损的AUC值范围为0.66至0.77,表明模型性能(以AUC衡量)在测试方法内是分期依赖性的。
对基于不同标注方法训练的AI模型之间进行了21对比较的多水平逻辑回归分析。经过Bonferroni校正后(α=0.002),所有配对比较均未达到统计学显著性。最低的p值出现在比较基于共识标注与专家1标注训练的模型之间(p=0.005)。
对于所有AI模型,使用两种参考标准(显微CT标注和训练匹配标注)评估时,其一致性存在显著差异。所有比较的p值均<0.001。
尽管基于显微CT的标注为体外评估提供了更精确的参考,但本研究并未发现使用其训练AI模型能带来显著更优的诊断性能。评估结果显示,当模型使用与其训练数据同类型的标注进行评估时,诊断准确性更高,而不是使用高质量的参考数据。这些发现强调了测量的诊断准确性会因所应用的参考标准而有很大差异。
关于第一个研究问题(RQ1),在Bonferroni校正后,未发现不同训练标注方法训练的模型在准确性上存在统计学显著差异。然而,性能指标显示出有意义的趋势,增加样本量可能有助于更明确地评估RQ1。关于第二个研究问题(RQ2),结果一致且显著地表明,评估参考标准的选择对诊断准确性的评估有重大影响。所有模型在使用训练匹配参考标准评估时,其一致性均显著高于使用显微CT参考标准。这一发现强调了在当前可用参考标准下报告的诊断性能可能存在误导性。
模型性能的分层分析显示,AI模型对RA2-RA3期病变的灵敏度高于RA1期,这与X线片对早期邻面龋显现能力的局限性一致。从临床角度看,在RA1期检测龋损对于实施预防性干预至关重要,但这对于人类观察者和AI模型来说仍然是一项挑战。
与先前研究的比较发现,本研究的模型对早期病变(RA1)的灵敏度低于某些文献报道,这很可能是因为本研究使用了更严格的、基于显微CT的参考标准进行评估。这凸显了AI模型在检测早期龋损方面面临的持续挑战,以及使用高质量参考标准进行准确验证的重要性。
本研究结论指出,参考标准对AI模型评估具有强烈影响。虽然训练期间的标注策略并未显著影响AI龋损分割的准确性,但当模型针对不同参考标准进行测试时,评估存在偏差。这些结果强调了选择适当的参考标注对于确保早期龋损检测中AI性能评估可靠性的重要性。该研究为未来开发更可靠、更公正的AI龋齿诊断工具提供了重要的方法论参考和实践指导。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号