编辑推荐:
这篇系统评价对椎体压缩骨折(VCF)椎体强化术后残余疼痛的预测模型进行评估。通过检索 8 个数据库,分析 15 个模型发现,其总体预测性能良好(C 统计量 = 0.87),但存在偏倚风险。模型常用后筋膜损伤(PFI)等预测因素,可为临床预测和治疗提供参考。
### 研究背景
椎体压缩骨折(Vertebral compression fractures,VCFs)常由骨质疏松引发,是骨质疏松患者常见并发症。在美国,每年约有 70 万例 VCFs,中国临床数据显示其在老年患者中尤为普遍,60 岁以上人群发病率达 24.7% 。因保守治疗效果有限,椎体强化被推荐为 VCFs 的最佳治疗方式。然而,部分患者术后仍会经历肋间和背部疼痛,即残余疼痛,这影响患者生活质量并增加经济负担。若能精准识别高风险个体并及时干预,可在一定程度上预防残余疼痛。预测模型可结合多个预测变量量化结果风险,对 VCFs 术后残余疼痛高风险个体的早期识别意义重大,但现有模型存在临床适用性受限、缺乏外部验证等问题,因此需对其进行严格评估。
研究方法
- 研究设计:本系统评价遵循 PRISMA 2020 声明及 Debray 等人提供的框架,研究方案已在 PROSPERO 注册。
- 检索策略:在 PubMed、Web of Science 等 8 个数据库进行全面检索,检索时间从各数据库建立至 2024 年 5 月 1 日,采用主题词和自由文本词相结合的方式,且未限制手术方法,同时审查纳入研究的参考文献以扩大检索范围。
- 纳入与排除标准:纳入描述椎体压缩骨折椎体强化术后残余疼痛风险预测模型开发和 / 或验证的研究,不限研究设计和发表年份,排除动物实验、综述、重复研究等。
- 研究选择、数据提取与质量评估:用 NoteExpress 软件去除重复记录后,由两位 reviewers 独立筛选研究,分歧由第三位 reviewer 解决。两位 reviewers 用预定义表格提取数据,采用 Newcastle - Ottawa Scale(NOS)评估队列研究和病例对照研究的偏倚风险,依据 TRIPOD 声明对预测模型分类,用 CHARMS 清单进行批判性评价和数据提取,利用 Prediction Model Risk of Bias Assessment Tool(PROBAST)评估风险模型质量。
- 统计分析:用 PROBAST 评估纳入模型,进行描述性分析,对报告 C 统计量和 95% 预测区间的模型,经 logit 转换后用随机效应模型和 REML 方法合并 C 统计量,生成森林图,C 统计量 > 0.75 表示区分度良好。
研究结果
- 研究选择:初始检索获得 733 条记录,去除重复后剩余 630 条,经标题和摘要筛选排除 612 条,18 条进行全文审查,最终 15 项研究纳入系统评价。
- 纳入研究特征:15 项研究涉及中国 12 个城市 14 家医院的 4802 例椎体压缩骨折患者,数据收集时间为 2015 年 1 月至 2023 年 3 月。多数研究为回顾性研究,涉及经皮椎体成形术(PVP)和 / 或经皮后凸成形术(PKP)患者,以背部疼痛或肋间神经痛为预测结果,多采用视觉模拟评分(VAS)评估疼痛,对残余疼痛的定义和随访时间存在差异。
- 风险预测模型特征:所有模型均用逻辑回归方法开发,多数研究存在性别偏倚,平均年龄超 60 岁。多数模型采用内部验证,仅 1 项研究进行外部验证。训练集和验证集样本量有差异,14 项研究提供列线图,1 项研究提供公式。
- 模型评估
- 校准准确性:所有研究均评估校准,部分用校准曲线,部分用 Hosmer - Lemeshow(HL)检验,结果表明模型初始校准有前景,但需优化以提高适用性。
- 决策曲线分析:13 项研究用决策曲线分析(DCA)评估模型临床效用,多数模型临床适用性良好,但在不同阈值概率下表现有差异,需根据临床情况优化阈值。
- 区分准确性:所有研究测量区分准确性,训练集 C 统计量范围为 0.77 - 0.94,验证集 C 统计量范围为 0.752 - 0.954,合并 C 统计量为 0.87(95% CI [0.83, 0.89]),表明模型整体区分准确性良好。
- 关键预测因素:共 35 个不同预测因素,后筋膜损伤(PFI)、骨密度(BMD)和椎体内真空裂隙(IVC)最常见。PFI 在多数研究中是风险预测因素,但重要性差异大;BMD 的预测强度因统计方法和研究设计不同而有差异;IVC 是残余背痛的重要风险因素。
- 偏倚风险评估
- 观察性研究偏倚风险:NOS 评估显示所有队列和病例对照研究均为高质量,但在 “可比性” 领域存在不足,多数研究未充分考虑观察和对照组差异,且仅少数研究提及盲法。
- 预测模型偏倚风险:多数模型因回顾性设计在 “参与者” 领域被评为高风险,部分研究在 “结果” 领域存在问题,如预测评估与结果确定间隔短、未处理缺失数据、忽视数据复杂性等,多数模型未进行交叉验证和外部验证。在适用性方面,多数研究在 “参与者” 和 “预测因素” 领域风险低,部分研究在 “结果” 领域存在高适用性问题。
讨论
- 模型的应用潜力与局限性:本系统评价总结的 15 个模型虽均来自中国,可能存在区域偏倚,但仍有跨种族应用潜力。总体而言,模型预测能力良好,如 Wu 等人的研究对残余肋间神经痛预测效果好,Deng 等人的模型在预测慢性背痛方面有优势。然而,多数研究显示年龄与椎体强化术后残余疼痛相关性不强,可能与手术技术和术后治疗改进、合并症管理及样本年龄结构有关。
- 预测模型的优化方向:当前模型存在诸多局限性,如参与者选择偏倚、样本量小、缺乏外部验证、缺失数据处理不当等。未来研究可从多方面改进,如对高风险患者谨慎选择椎体强化策略,开发针对年轻患者的模型,预防骨水泥渗漏和优化分布,将骨折严重程度分类纳入模型等。
- 关键预测因素的临床意义:PFI、BMD 和 IVC 等是重要预测因素。低 BMD 是术后残余疼痛和再发骨折的风险因素,术前及恢复期间增加骨密度有助于预防。骨折的严重程度和不稳定性,如 PFI 和 IVC 等因素,对手术结果影响重大,对于存在这些因素的骨折,可能更适合采用固定治疗而非椎体强化,临床治疗决策应综合评估骨折特征。
研究结论
本系统评价总结了椎体强化术后残余疼痛风险的预测模型,指出当前模型的不足。尽管模型总体性能(C 统计量 = 0.87)和临床适用性良好,但仍需改进模型开发和验证。这些模型可为临床医生术前评估残余疼痛风险、预防疼痛和制定个性化治疗方案提供有价值的工具。