综述：内镜鼻窦手术中手术范围评估：评分系统的范围综述

《International Forum of Allergy & Rhinology》：Assessing Surgical Extent in Endoscopic Sinus Surgery: A Scoping Review of Scoring Systems

【字体：大中小】 时间：2026年06月10日 来源：International Forum of Allergy & Rhinology 6.8

编辑推荐：

　　背景内镜鼻窦手术（ESS）的手术解剖范围存在显著差异，即使在相同术式名称下，实际实施的解剖清理程度也可明显不同。在慢性鼻-鼻窦炎中，这种异质性可能影响术后结局、翻修率以及对生物制剂治疗的应答。本综述旨在识别并表征用于评估 ESS 术后手术范围的现有工具。

背景

内镜鼻窦手术（ESS）的手术解剖范围存在显著差异，即使在相同术式名称下，实际实施的解剖清理程度也可明显不同。在慢性鼻-鼻窦炎中，这种异质性可能影响术后结局、翻修率以及对生物制剂治疗的应答。本综述旨在识别并表征用于评估 ESS 术后手术范围的现有工具。

方法

本范围综述遵循系统评价与范围综述优先报告条目扩展版（PRISMA-ScR）指南，系统检索 PubMed/MEDLINE、Scopus 和 Web of Science 数据库。

结果

共纳入 21 项研究，涉及 11 种评估工具：包括基于计算机断层扫描（CT）的评分〔阿姆斯特丹内镜鼻窦手术完整性分类（ACCESS）、手术完成指数（CoSI）、鼻窦手术完整性评分（SSCS）和残余筛窦细胞（REC）评分〕、术中分类系统〔筛板-窦口-范围-黏膜（LOEM）、完全型与靶向型分类，以及日本鼻科学会（JRS）分类〕、影像学-手术一致性指标及研究特异性工具。研究显示出一个关键概念区分，即手术范围（实际实施的术式）与手术完整性（最终达到的解剖学结果）并不相同。基于 CT 的工具主要评估手术完整性，而术中分类系统主要捕捉手术范围。由于相似术式可能产生不同的解剖学结果，这两个维度不能相互替代。在 CT 评分工具中，CoSI 显示出最一致的结局相关性，既往手术不完整可预测翻修 ESS 后获得更大获益。ACCESS 在预测生物制剂疗效方面显示出初步应用价值。LOEM 是目前唯一报告了与临床结局相关性的术中系统，但其证据仅来自单一研究团队。总体而言，各工具的证据仍然有限，且以回顾性研究为主。

结论

基于 CT 的工具与术中工具反映既往手术的不同维度，应根据具体临床或科研问题进行选择。值得注意的是，结构化评分持续提示，许多符合指南中既往手术标准的患者，其实际解剖清理程度存在明显差异。鉴于手术范围与术后结局及生物制剂治疗应答相关，对其进行标准化评估有必要进一步研究，以评估其纳入临床决策的可行性。然而，前瞻性验证仍属当务之急。

1 Introduction

内镜鼻窦手术（ESS）是现代鼻科学（rhinology）的标志性外科技术。自 20 世纪 70 年代末至 80 年代初引入以来，可视化技术、器械系统以及图像引导导航不断进步，使复杂 ESS 能够以更安全且可重复的方式实施。尽管技术持续演进，ESS 并非一个均质性干预概念。相同术式标签之下，其解剖学清理范围可有显著差异，从局限性钩突切除到双侧全筛窦切除联合蝶窦切开均可被纳入其中。当前尚无“完整手术”的普遍公认定义。多项研究表明，既往手术次数并不能真实反映解剖清理的充分性。手术记录及操作编码（如现行操作术语，CPT）虽然记录了实施的干预，但并不反映最终达成的解剖学状态，因此可能高估既往手术完整性。由此，纸面手术史相同的患者，在后续治疗起点上可能存在本质差异。此外，手术清理范围并非单纯技术变量，回顾性队列研究提示，更完整的手术与更佳术后疾病控制和更低翻修率相关。

随着慢性鼻-鼻窦炎伴鼻息肉（CRSwNP）生物制剂治疗的兴起，这一问题的重要性进一步增强。现行 EPOS2020 及 EPOS/EUFOREA 2023 指南均将“适当的既往鼻窦手术”作为生物制剂适应证前提，但并未明确定义何为充分手术。2025 年 AAO-HNSF 成人鼻窦炎临床实践指南同样将生物制剂定位于既往药物或手术治疗后仍持续活动性疾病患者的可选方案，却未界定充分外科处理的标准。因此，接受过有限中鼻道上颌窦开窗的患者与接受过双侧 ESS 并切除全部骨性筛板的患者，均可被归入“既往手术”人群。该差异具有重要临床意义：回顾性资料提示，既往手术范围可能影响生物制剂疗效，扩大范围的手术清理与患者报告结局改善及更有利的治疗应答率相关。在生物制剂长期成本较高的背景下，翻修手术与生物制剂之间的选择还具有直接卫生经济学意义。因此，建立经验证的手术完整性评估框架已成为亟待填补的空白。

基于此，研究人员指出，已有多种系统尝试量化 ESS 的手术范围，但这些系统在概念框架、解剖关注点及验证状态方面差异明显，尚缺乏系统综述对其方法学基础与临床应用进行整体梳理。本研究即旨在识别并刻画现有工具，并评估其在翻修手术与生物制剂治疗决策交界处的适用性。

2 Methods

2.1 Study Design and Reporting Framework

本研究为范围综述，依据系统评价与范围综述优先报告条目扩展版（PRISMA-ScR）开展。研究问题采用 PCC 框架构建：对象为接受 ESS 的患者（初次或翻修），干预/概念为评估手术范围或完整性的任意评分或分类系统，情境为涉及手术标准化或结局评价的临床或研究场景。研究人员系统检索 PubMed/MEDLINE、Scopus 及 Web of Science，自建库起至 2026 年 2 月 22 日，应用 ESS、评分系统与手术范围相关术语并结合布尔运算符和医学主题词（MeSH）进行检索，同时手工追溯纳入研究参考文献。

2.2 Study Selection and Eligibility

若研究描述、开发、验证或应用了基于术中记录、手术报告或术后 CT 影像的手术范围或完整性量化系统，则纳入。研究设计不设限制。若仅涉及症状评分而未涉及手术范围、仅涉及围手术期参数、非内镜手术、动物实验或尸体研究，则予以排除。仅纳入英文全文文献。去重后，利用 Rayyan 平台按标题/摘要筛选和全文复审两阶段进行筛查，由两名研究者独立完成，分歧通过协商或第三位研究者裁决解决。共识别 242 条记录，去重后筛查 199 条，24 篇进入全文评估，最终纳入 21 项研究。

2.3 Data Extraction and Synthesis

研究人员采用预设标准化表格提取数据，包括作者、年份、国家、研究设计、样本量、评分系统特征、数据来源、评估解剖区域、评分尺度、验证状态、可靠性检验及与临床结局的关联。根据数据基础和概念目的，将工具归为四类：基于 CT 的完整性评分、术中手术范围评分与分类、影像学-手术一致性指标以及研究特异性工具。

3 Results

3.1 Study Overview

最终纳入 21 项研究，发表时间跨越 2012 至 2026 年，主要来自三级鼻科学中心，多采用回顾性队列或方法学验证设计，未发现随机对照试验。识别出的工具在概念框架、解剖焦点、量表结构及预期用途方面差异明显。总体共涉及 11 种独立工具。

3.2 CT-Based Completeness Scores

3.2.1 Amsterdam Classification of Completeness of Endoscopic Sinus Surgery (ACCESS)

ACCESS 是 2020 年提出的基于 CT 的术后手术完整性评估工具。该系统对双侧 6 个解剖区域按 0–2 分评分，其中 0 表示功能性开放，1 表示已处理但不充分，2 表示未手术；窦口鼻道复合体（OMC）仅记 0 或 2 分，总分 0–24 分，分值越高表示手术越不完整。原始验证研究显示其在 6 名鼻科学专家之间具有极佳的评定者间一致性，组内相关系数（ICC）为 0.977。随后多项研究将 ACCESS 应用于三级转诊鼻科学人群、翻修手术队列及真实世界生物制剂治疗场景。单中心回顾性队列显示，术前 ACCESS 评分可独立预测 12 个月时度普利尤单抗（dupilumab）疗效，曲线下面积（AUC）为 0.83。不同研究共同提示，许多符合既往 ESS 标准并转诊至高级中心的患者，实际上仍存在既往手术不完整现象。

3.2.2 Completion of Surgery Index (CoSI)

CoSI 通过 CT 影像中骨性分隔是否仍存在来评估手术完整性。该工具对上颌窦、筛窦、蝶窦和额窦的骨性开放情况进行双侧三级评分，每侧赋值 0、5 或 10 分，并对部分中鼻甲切除及 Draf III 额窦开窗给予附加分，总分范围 0–100 分。研究通过分段回归导出并在独立队列中验证了 70 分阈值，用于区分既往手术不完整与充分手术。CoSI <70 的患者在翻修 ESS 后 SNOT-22 改善幅度显著高于既往手术更完整者，且该关联独立于哮喘和生物制剂使用。此结论在合并哮喘的 CRSwNP 队列中得到重复验证，除 SNOT-22 外，哮喘控制测试（ACT）评分改善也更明显。CoSI 与 Lund–Mackay（LM）评分之间相关性较弱且无统计学意义。

3.2.3 Sinus Surgery Completeness Score (SSCS)

SSCS 于 2025 年提出，也是一种基于术后 CT 的完整性评分系统。其对双侧 6 个解剖区域按 0–2 分评分，总分 0–24 分，分数越高表示手术越完整。与 ACCESS 不同，SSCS 将钩突（uncinate process）作为独立亚单位纳入，而不是以 OMC 作为替代指标。在英国两个三级中心的 41 例 CRSwNP 翻修患者中，SSCS 显示出较强评定者间一致性，Fleiss κ 值为 0.857，且平均完成时间不足 3 分钟。该队列平均 SSCS 仅为 7.40/24，额窦与蝶窦在 89% 病例中完全未被清理。其与 LM 及 SNOT-22 的相关性均未达统计学意义。

3.2.4 Residual Ethmoid Cell (REC) Score

REC 评分用于量化术后 CT 上双侧 6 个筛窦亚区残余筛板和气房，总分 0–18 分。在 138 例原发性慢性鼻-鼻窦炎（CRS）患者队列中，REC ≥4 可独立预测较差术后结局，比值比（OR）为 2.477。上前筛区是最常见的清理不完全部位。该工具未报告评定者间一致性，也未在原始研究之外得到进一步评估。

3.3 Intraoperative Classification Systems

3.3.1 Lamella–Ostium–Extent–Mucosa (LOEM) Classification

LOEM 是一种术中分类系统，不依赖术后影像，而直接编码实际实施的手术过程。系统包含四个维度：筛板（L）、窦口（O）、范围扩展（E）和黏膜处理（M）。其中，L 反映前后方向骨性切除跨越 4 个筛板的程度；O 反映窦口扩大范围；E 反映超出标准上颌窦开窗的扩展入路；M 则反映从功能保留到完全切除并行再生性黏膜成形术的黏膜管理策略。四个维度组合形成 1–4 型手术：1 型为功能保留的局限手术，4 型为根治性再生性手术，类型越高表示骨性切除、窦口扩大及黏膜干预越广泛。初步可靠性来自 7 名资深鼻科学专家对 11 例 ESS 视频病例进行两轮 Delphi 评估，整体 κ 值由 0.77 提升至 0.81，6 个月重测信度 κ 为 0.82。临床数据目前仅来自同一研究团队。305 例 CRS 队列中，4 型手术与更大幅度 SNOT-22 改善独立相关；172 例 CRSwNP 队列中，3–4 型更广泛手术与 3 年内更低治疗升级率相关。对 13 项研究进行回顾性 LOEM 重分类的系统综述提示，LOEM 4 型可带来最大生活质量获益，而 LOEM 1/2 型的复发风险超过 LOEM 3 型两倍以上。

3.3.2 Complete Versus Targeted Surgical Extent Classification

该分类将手术范围二分为“完全型”与“靶向型”。所谓完全型 ESS 包括双侧上颌窦造口、全筛窦切除、蝶窦切开及额窦切开；任何低于此范围的干预均定义为靶向型，判定依据为 CPT 编码。在 311 例 CRS 患者的前瞻性多中心观察队列中，完全型手术在校正哮喘、阿司匹林敏感性、鼻息肉及既往手术后，仍与更大 SNOT-22 改善独立相关，但其差异未达到最小临床重要差异（MCID）。该分类未报告可靠性分析，也未在其他队列中扩展应用。

3.3.3 Japanese Rhinologic Society (JRS) ESS Classification

JRS ESS 分类于 2013 年提出，并于 2017 年进行评估。该体系为手术记录提供五级框架，从 I 型（仅限 OMC）到 V 型（超越鼻窦壁的扩展操作），并可形成双侧累加的 ESS 评分 1–10 分。在 122 例患者回顾性队列中，更高的 ESS 类型与更长手术时间及更多术中失血量相关。该分类已纳入日本国家医保支付体系。但其未报告可靠性分析，也尚未在日本以外地区得到评估。

3.4 Radiological–Surgical Concordance Metrics

3.4.1 Concordance Score

一致性评分用于衡量手术范围与术前影像疾病负担之间的一致程度。双侧 5 个鼻窦区域分别评分：0 表示手术与 CT 发现一致，+1 表示无影像学病变却被开放，?1 表示存在病变却未开放，总分范围为 ?10 至 +10。在 247 例 CRS 队列中，该评分与 6 个月 SNOT-22 改善或 24 个月翻修率均无显著关联，且未进行可靠性分析。

3.4.2 Lund–Mackay to Operated Sinus Ratio (LM Ratio)

LM 比值由修订术前 LM 评分除以接受手术处理的鼻窦区域数得到，为连续变量，可按 1.0 进行二分。在 828 例 CRS 队列中，其平均值为 1.61，且 CRSwNP 患者显著高于无鼻息肉 CRS（CRSsNP）患者。该指标未报告与临床结局的关系或可靠性分析，更适合作为外科医师自我反思工具，而非临床决策工具。

3.5 Study-Specific Extent Instruments

除上述主要工具外，还存在若干研究特异性量表。Levin 等将 LM 系统中的手术记录部分改编为基于 CT 的完整性评分，对每侧 7 个解剖结构进行评价，总分 0–14 分。在阿司匹林加重性呼吸道疾病（AERD）患者中，各鼻窦层面的评定者间一致性为中等，但总分一致性较低，且未报告结局关联。?ztürk 和 Bozkurt 在鼻旁窦气压性鼻窦炎患者中提出基于解剖标志计数的手术范围指标，总分 1–12 分；慢性气压性鼻窦炎组评分高于复发性急性组，但同样未提供可靠性分析。

4 Discussion

本综述表明，既往 ESS 的手术范围正被越来越多地视为难治性 CRS 管理中的关键临床变量，但当前尚无统一标准化评估框架。共识别 21 项研究、11 种工具，其中 ACCESS、CoSI、SSCS 和 LOEM 具有较正式的开发过程、明确评分规则及初步可靠性数据，其余工具多为特定场景下的改编或原始研究后未再验证的方法。现有证据几乎全部来自回顾性、且以单中心研究为主。

本综述的核心发现之一，是现有工具反映了两个彼此相关但不能混同的维度：手术范围，即“做了什么手术”；手术完整性，即“最终达到了怎样的解剖结果”。基于 CT 的评分主要评估术后解剖状态，因此更接近手术完整性；术中分类系统则记录实施的术式，因此更能表征手术范围。由此可见，两个具有相同手术名称的病例，可能在术后解剖完整性上显著不同；反之，相似解剖结果也可能来源于不同手术路径。影像学-手术一致性指标则构成第三类工具，用于判断手术程度与术前影像疾病负担是否匹配，更适合质量评估用途。

在 CT 评分体系内部，也存在重要方法学分歧。ACCESS 关注鼻窦是否达到功能性开放，因此包含一定临床判断；CoSI 聚焦骨性间隔是否仍存在，更强调结构性可重复性；SSCS 则将钩突作为独立解剖亚单位。上述差异说明，该领域尚未解决“哪些解剖结构最能准确反映手术干预且可在影像上可靠评估”这一根本问题。由于缺少同一患者队列中不同工具的并行应用，目前尚不清楚 CoSI 判定为不完整的患者是否也会获得较高 ACCESS 评分，或 LOEM 4 型是否稳定对应较低 ACCESS 评分。未来若能在同一前瞻性队列中同步使用至少一种 CT 工具和一种术中工具，将有助于直接比较“实施的手术”与“得到的结果”之间的关系，并验证这一概念区分是否具有可测量的临床后果。

从证据强度来看，CoSI 目前提供了最一致的结局相关数据。其 70 分阈值是文献中唯一通过独立队列导出并验证的评分阈值，可识别既往手术不完整且在翻修术后获得类似初次手术获益的患者。ACCESS 则在最广泛的临床场景中得到应用，尤其涉及生物制剂疗效预测与治疗升级判断，但其结局关联仍主要是探索性的。LOEM 提出了最具机制导向的术中分类思路，但支持证据几乎全部来自同一研究团队，外部可推广性有限。总体而言，现有证据基础并不均衡：CoSI 的结局关联重复性最好，ACCESS 的应用场景最广，而 LOEM 的理论建构最完整但方法学独立性最弱。尚无任何工具经过前瞻性验证，可直接作为临床决策支持工具。

综述还提示，手术范围可能同时影响翻修手术结局和生物制剂应答。现行生物制剂审批标准及国际指南通常以二元方式界定“既往手术”，并不考虑解剖清理程度。多项研究提示，依据 ACCESS 所量化的既往手术清理程度可预测度普利尤单抗应答及翻修术后是否需治疗升级；而 CoSI 研究则从互补角度说明，既往手术越不完整，翻修术后的症状改善越明显。这些发现共同支持“并非所有既往手术具有相同临床意义”的观点。由此可推及两类潜在临床路径：既往手术不完整的患者，可能更适合优先接受翻修手术；既往手术已较完整但疾病仍失控者，则可能更适合尽早考虑生物制剂。

此外，这些工具还揭示了既往 ESS 中较一致的解剖学模式。SSCS 队列中，额窦和蝶窦在 89% 的翻修候选者中完全未被清理；多中心 ACCESS 研究中，额窦和蝶窦分别有 63% 和 55% 病例被记为无既往手术干预；REC 评分则提示上前筛区最常残留。换言之，仅凭上颌窦造口和前筛切除即可满足多数指南对“既往手术”的定义，但多个关键解剖区域事实上仍完全未处理。评分系统使这种差距得以被客观识别和量化，而这些患者在启动生物制剂前是否已被“充分治疗”，仍是未决问题。

研究同时指出若干重要空白。无鼻息肉 CRS（CRSsNP）在现有研究中明显代表不足；CT 评分工具均不能反映黏膜质量、组织嗜酸性粒细胞浸润或手术技术细节等可能独立影响结局的因素；LOEM 则尚未与 CT 疾病负担实现对接；基于评分指导治疗路径的成本-效果分析亦完全缺乏。因此，在不同外科团队、患者表型和卫生体系中开展前瞻性多中心标准化研究，是推动这些工具真正进入临床决策支持阶段的必要前提。

5 Conclusion

总体而言，本范围综述明确了 ESS 后手术评估中“手术范围”与“手术完整性”两个不同但相关的核心概念。基于 CT 的评分系统用于评估既往手术后的解剖学结果，术中分类系统则用于描述实施的操作策略。这种方法学差异是结局研究异质性和队列间可比性不足的重要来源。现有研究提示，许多符合既往 ESS 标准的患者，其实际解剖清理程度差异显著，而既往手术清理范围可能影响翻修术效果及生物制剂应答。未来理想研究应为前瞻性、多中心设计，在同一队列中同时应用至少一种 CT 评分与一种术中分类工具，并纳入伴息肉与不伴息肉的 CRS 表型，同时系统评估患者报告结局、翻修率及生物制剂治疗反应。只有如此，才能进一步阐明手术范围与手术完整性的概念区分是否具有明确临床后果，并判断单一工具是否足以支持临床决策。

热点排行