四种成熟影像学牙龄推断方法的观察者间与观察者内可靠性评估
《International Journal of Legal Medicine》:Assessing subjectivity in dental age estimation: intra- and inter-observer reliability across four well established third molar evaluation methods
【字体:
大
中
小
】
时间:2025年10月26日
来源:International Journal of Legal Medicine 2.3
编辑推荐:
本刊推荐:为解决法医牙科学中牙龄推断(DAE)方法可靠性评估不足的问题,研究人员针对Gleiser and Hunt Modified by Kohler (GHK)、Demirjian (DEM)、Kullman (KUL)和Cameriere's Third Molar Maturity Index (I3M)四种成熟影像学系统,开展了观察者间与观察者内可靠性的系统性评估研究。结果表明所有方法均具有高度可靠性,其中I3M的组内相关系数(ICC)达0.986,但上颌第三磨牙的评估一致性普遍低于下颌。该研究为法医实践中DAE方法的选择与应用提供了关键证据支持。
在法医学和移民管理等诸多领域,对个体、特别是缺乏合法身份文件的未成年人进行准确的年龄评估,是一项具有重大法律和人道主义意义的工作。牙齿发育作为一项相对稳定的生物学指标,在其中扮演着关键角色。牙龄推断(Dental Age Estimation, DAE)技术,尤其是基于全景片(Panoramic Radiographs)评估第三磨牙发育状况的方法,已成为解决此类争议的核心工具。然而,一个长期存在的挑战在于,这些依赖于观察者主观判断的DAE方法,其结果的可靠性究竟如何?不同观察者使用同一标准评估同一张X光片,能否得到一致结论?同一观察者在不同时间点评估同一张片子,结果是否稳定?这些关于方法“可重复性”和“一致性”的问题,直接关系到DAE结论在法庭上的证据效力。
尽管德国法医年龄诊断研究组(AGFAD)等权威机构建议在实务中应联合应用多种独立的DAE方法并由两名以上观察者独立评估,但对这些方法本身可靠性的系统比较研究仍相对缺乏。方法的准确性固然重要,但其可靠性——即在不同观察者间和同一观察者不同次评估间产生一致结果的能力——是准确性得以实现的前提。这种可靠性尤其在使用第三磨牙进行评估时面临考验,因为第三磨牙位置深在,解剖结构复杂,其影像常因重叠伪影等因素而难以判读。
为了回答这些关键问题,由Nikolaos Angelakopoulos领衔的国际研究团队在《International Journal of Legal Medicine》上发表了一项开创性研究。该研究旨在系统评估四种广泛应用的法医牙龄推断方法的观察者内(Intra-observer)和观察者间(Inter-observer)可靠性。这四种方法包括三种基于发育分期的定性方法:Gleiser and Hunt改良Kohler法(GHK)、Demirjian法(DEM)、Kullman法(KUL),以及一种基于测量的定量方法:Cameriere第三磨牙成熟指数法(I3M)。研究招募了九名经验丰富的法医牙科专家,对50份14至23.99岁个体的匿名全景片进行了独立评估。所有观察者均经过统一校准培训,并在评估过程中对样本的时序年龄(Chronological Age, CA)和性别信息保持盲态。为评估观察者内可靠性,所有观察者在初次评估两周后对全部样本进行了重复评估。
统计分析采用了多种指标以全面反映一致性程度:针对有序分类变量(GHK, DEM, KUL的分期)使用了加权Cohen‘s Kappa和Gwet’s AC1/AC2系数;针对连续变量(I3M的测量值)则使用了组内相关系数(Intraclass Correlation Coefficient, ICC)。此外,研究还特别分析了观察者对“不适用”(Not Applicable, NA)牙齿(即因影像质量等原因无法评估的牙齿)的判断一致性。
本研究为观察性横断面研究。样本来源于一个已建立的匿名数据集,包含50份高质量全景片(19男,31女)。九名观察者独立应用四种DAE方法(GHK, DEM, KUL, I3M)评估所有四个第三磨牙(FDI编号18, 28, 38, 48)。观察者可使用ImageJ等图像处理软件辅助。统计分析使用IBM SPSS和R语言(irrCAC, kappaSize包),计算Cohen‘s Kappa、Gwet’s AC1/AC2、ICC等可靠性系数及其95%置信区间。
所有九名观察者均表现出高度的内部一致性。对于三种分期方法(KUL, DEM, GHK),加权Cohen‘s Kappa值均高于0.8,表明每位观察者自身的评估结果非常稳定。对于I3M测量法,ICC值接近或超过0.9,同样显示了出色的重复测量可靠性。
在观察者间一致性方面,四种方法均表现出色,但程度有所不同。定量测量的I3M方法取得了最高的总体一致性,ICC值达到0.986(95% CI 0.980; 0.990)。在三种分期方法中,DEM方法的Gwet‘s AC2值最高(0.918, 95% CI 0.910; 0.925),GHK方法紧随其后(0.914, 95% CI 0.906; 0.923),KUL方法相对较低但仍属“几乎完美”级别(0.868, 95% CI 0.849; 0.886)。
一个显著的发现是,无论使用哪种分期方法,上颌第三磨牙(FDI 18, 28)的观察者间一致性系统地低于下颌第三磨牙(FDI 38, 48)。例如,在DEM方法中,上颌磨牙的Gwet‘s AC2值为0.848(95% CI 0.831; 0.864),而下颌磨牙为0.936(95% CI 0.926; 0.946)。在GHK方法中也观察到类似趋势(上颌:0.870;下颌:0.930)。这种差异可能与上颌第三磨牙区域更复杂的解剖结构、更多的影像重叠(如对上颌窦、对侧下颌骨的鬼影)有关,导致观察者判断难度增加。
在判断某颗牙齿是否可被评估(即标记为“NA”)方面,KUL方法表现出最高的一致性(Gwet‘s AC1 = 0.993),I3M方法次之(0.988),DEM和GHK方法并列(均为0.954)。此外,对于下颌磨牙的“NA”判断一致性显著高于上颌磨牙,这再次印证了下颌磨牙在评估条件上可能更具优势。
本研究通过严谨的设计和全面的统计分析,得出了明确结论:所测试的四种DAE方法均能产生高度可靠的结果,足以支持其在法医实践中的应用。然而,方法之间以及不同牙位之间存在值得注意的差异。
DEM和GHK这两种分期方法在观察者间可靠性上表现最佳,略优于KUL方法。这提示在追求最大程度的一致性时,可优先考虑DEM或GHK方法。但选择方法时仍需考虑研究的具体目的。例如,KUL方法不包含牙冠发育分期,若研究关注低年龄段的发育情况,则GHK或DEM方法更为合适。而对于以18岁为法律阈值的年龄判定,包含根尖闭合详细分期的GHK等方法可能更具优势。
I3M方法虽然显示了极高的ICC值,但其连续测量的特性导致几乎不可能获得两次完全相同的测量结果,这与分期方法“一旦判定,结果稳定”的特点形成对比。这表明,尽管I3M在统计上可靠性极佳,但其测量值的微小波动可能在实际应用中引入不确定性。
本研究最重要的发现之一是明确指出了上颌第三磨牙评估的挑战性。这为未来的法医实践和培训提供了明确方向:需要加强对上颌第三磨牙影像判读的培训和校准,或考虑在年龄推断模型中赋予下颌磨牙更高的权重。
研究的局限性包括仅评估了四种方法,未纳入其他具有更多发育分期(如Moorrees法、Nolla法)的方法;样本量相对较小,可能影响对某些不常见发育分期评估的精确性。未来的研究可扩大样本量,纳入更多样的DAE方法,并探索人工智能辅助评估在提升观察者一致性方面的潜力。
总之,这项研究为法医牙龄推断领域的可靠性和标准化提供了坚实的证据基础。它证实了经过严格校准的专家能够使用主流DAE方法获得高度一致的评估结果,增强了这些方法在司法程序中的可信度。研究结果提醒从业者,在选择方法和解释结果时,应充分考虑不同方法的特点以及解剖位置(上颌vs下颌)可能带来的变异,从而在关乎个人重大权益的年龄评估中做出更为审慎和科学的判断。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号