使用常见形态学分类方法对漏斗胸进行评估的专家外科医生之间的观察者间一致性较低

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Journal of Pediatric Surgery》：Low Interobserver Agreement Among Expert Surgeons Using a Common Morphological Classification for Pectus Excavatum

【字体：大中小】 时间：2025年12月13日 来源：Journal of Pediatric Surgery 2.5

编辑推荐：

　　本研究评估胸廓凹陷畸形经典形态分类的可重复性，通过两阶段专家评估发现，分类一致性较低，尤其是Grand Canyon型，建议结合Titanic指数等客观指标以提高诊断一致性。

作者：Donají Rodríguez-Ortiz、Luzia Toselli、Gaston Bellia-Munzon、Daniela Sanjurjo、Gaston Elmo、Maxroxia Vallee、Marcelo Martínez-Ferro

资助机构：Mother and Child Medical Center医院基金会，地址：Av. Crámer 4601，布宜诺斯艾利斯，C1429AKL，阿根廷

摘要

背景

自2006年首次发布胸廓凹陷（pectus excavatum）的视觉分类系统以来（该系统在2013年进行了修订），其使用在国际上得到了广泛认可。该系统将胸廓凹陷分为三种形态类型：杯状、碟状和沟槽状。然而，关于该分类系统的可重复性仍存在争议。因此，我们进行了两阶段评估：首先在内部外科团队中进行评估，随后邀请了一组国际公认的胸壁外科医生参与，以评估不同观察者之间的共识程度。

方法

本研究采用盲法评估方法，让六位专门研究胸壁畸形的胸外科医生对100名胸廓凹陷患者的标准化医学照片进行评分。在第二阶段，由胸壁国际组织（Chest Wall International Group）的执行委员会17名成员对简化版的评估表进行评分，并分析了评分结果的一致性。此外，还研究了这些结果与胸廓相关指标之间的关系。

结果

在第一阶段，六位医生在仅30%的病例中达成完全一致意见；49%的病例中观察者间的评分一致性达到80%或以上。评分一致性较高的病例其Titanic指数显著较低（分别为64.1±22.4% vs 78.1±15.5%，p<0.0001），这表明局部畸形可能与分类一致性较高有关。在第二阶段，国际专家之间的共识程度更低，仅有6%的病例达成完全一致意见。

结论

我们的研究结果表明，即使在专家之间，传统的胸廓凹陷视觉分类也存在较大的观察者间差异。仅依赖表面解剖学进行分类可能不足以指导治疗决策，因此需要客观的评估指标。使用定量成像指标（如Titanic指数）可以提高分类的可重复性，从而支持更一致的临床决策。

研究类型

回顾性比较研究

证据水平

III级

引言

多年来，人们对胸廓凹陷（PE）的分类进行了大量研究[1]、[2]、[3]。2006年提出了一个基于照片和计算机断层扫描（CT）的分类系统[4]，该系统将胸廓凹陷分为杯状（局部凹陷）和碟状（弥漫性凹陷）两种形态。2013年又增加了第三种类型——沟槽状（“大峡谷”型），表现为整个胸骨的凹陷[5]。尽管最初的出版物承认这种分类存在一定程度的主观性，但它仍被广泛采用，对治疗决策产生了影响，例如确定所需的植入物数量、位置和方向[1]、[6]。

随着时间的推移，胸壁专家继续研究影响外科和非外科治疗方法的因素[7]、[8]。通过CT扫描、磁共振成像和光学扫描等手段，诊断和治疗的精确度得到了提高[9]、[10]、[11]、[12]、[13]、[14]。此外，除了形态学特征外，心脏受压和心肺功能障碍也成为评估治疗的重要指标。然而，许多机构仍主要依靠体格检查来制定治疗计划，并仅使用CT扫描来测量Haller指数以用于行政目的。

鉴于胸廓凹陷分类的临床重要性，其可重复性仍然是一个值得关注且存在争议的问题。因此，我们通过评估同一组胸壁专家之间的评分一致性来评估其可重复性。同时，还对胸壁国际组织（Chest Wall International Group）的执行委员会成员进行了总结性分析。

研究设计与研究对象

这项比较队列研究在一家医疗机构进行。在第一阶段，我们使用计算机随机化方法从诊所数据库中随机选取了100名被诊断为胸廓凹陷的患者。纳入标准包括拥有标准化照片和术前胸部CT扫描结果。排除标准包括既往接受过胸壁手术、影像记录不完整或照片质量不佳的患者。每位胸廓凹陷患者均接受了三项标准化医学评估。

结果

在第一阶段，所有六位医生在30%的病例中达成完全一致意见；49%的病例中观察者间的评分一致性达到80%或以上。评分一致性为中等的病例占27%，较低的病例占24%（见图1）。

总体评分者间可靠性系数（Fleiss’ Kappa）为0.39（95%置信区间0.31-0.46）：杯状形态的Kappa系数为0.28（95%置信区间0.19-0.38），沟槽状形态的Kappa系数为0.06（95%置信区间0-0.17）。

讨论

本研究评估了两组专业胸外科医生对胸廓凹陷表面解剖学分类的评分一致性。在第一阶段，同一外科团队内部的评分一致性较低，仅有49%的医生达到80%或以上的评分一致性；Fleiss’ Kappa系数为0.39（评分一致性一般），AC1指数为0.46（评分一致性中等）。在分析各个亚型时，评分一致性更低。

结论

我们的研究结果表明，即使在专家之间，使用传统的视觉分类方法对胸廓凹陷患者的评估也存在显著差异。仅依赖表面解剖学特征可能导致治疗决策不一致，因此需要客观的成像指标（如Titanic指数）来指导个性化治疗计划。

作者贡献声明

Maxroxia Vallee：撰写、审稿与编辑、初稿撰写、方法学设计、数据整理。 Marcelo Martínez-Ferro：撰写、审稿与编辑、初稿撰写、监督、研究设计、数据分析。 Donají Rodríguez-Ortiz：撰写、审稿与编辑、初稿撰写、数据分析、概念构思。 Gaston Bellia-Munzon：撰写、审稿与编辑、初稿撰写、方法学设计、研究设计、数据分析。

关于写作过程中使用生成式AI和AI辅助技术的声明

在撰写本文时，作者使用了Chat GPT 5.0工具来提升语言表达和可读性。使用该工具后，作者对内容进行了必要的修改，并对出版物的内容负全责。

利益冲突声明

作者声明不存在可能影响本文研究的已知财务利益或个人关系。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号