《BMC Medical Research Methodology》:Experiences from conducting systematic reviews of systematic reviews
编辑推荐:
这篇评论讨论了研究人员最近开展两项系统综述(SRs)的系统综述(SRs of SRs)的经验。研究人员探讨了在肌肉骨骼健康领域的循证医学中开展SR of SRs的优势和局限性。尽管存在方法学挑战,研究人员认为SRs of SRs为研究界增加了价值。
这篇评论讨论了研究人员最近开展两项系统综述(SRs)的系统综述(SRs of SRs)的经验。研究人员探讨了在肌肉骨骼健康领域的循证医学中开展SR of SRs的优势和局限性。尽管存在方法学挑战,研究人员认为SRs of SRs为研究界增加了价值。
**研究背景**
当前,循证医学领域中系统综述(Systematic Review, SR)的数量急剧增长——2019年每日约发表80篇SR,2022年接近113篇,使研究人员、临床医生和政策制定者难以快速获取并整合证据。同时,不同SR针对同一主题可能呈现矛盾结论,例如在慢性腰背痛和颈痛的运动干预效果方面,分散的SR结果难以直接指导实践。为应对这一困境,系统综述的系统综述(Systematic Reviews of Systematic Reviews, SR of SRs)作为一种高级综合方法被提出,旨在汇总多个SR的发现并明确证据确定性。然而,SR of SRs面临独特挑战:原始研究数据在传递至SR、再至SR of SRs的过程中可能发生信息失真(即错误传播),且纳入SR的质量参差不齐,可能影响最终结论的可靠性。瑞典卡罗林斯卡学院(Karolinska Institutet)的研究人员基于其在肌肉骨骼健康领域开展的两项具体SR of SRs(分别针对慢性低背痛和慢性颈痛运动干预效果),系统讨论了该方法学的优势与局限性。该论文发表在《BMC Medical Research Methodology》。
**研究方法概述**
研究人员首先系统检索了已发表的关于运动干预对慢性腰背痛和颈痛疗效的SR,限定纳入以随机对照试验(Randomized Controlled Trial, RCT)为主的SR。采用AMSTAR-2工具对纳入SR进行方法学质量评价,并按照PICOT结构提取研究特征。为量化重叠程度,使用Pieper等提出的“校正覆盖面积”(Corrected Covered Area, CCA)计算不同SR包含相同原始研究的频率。研究采用成对工作模式,由两位研究人员独立完成筛选、数据提取和质量评估,分歧通过第三方或全组共识讨论解决。对于低背痛SR of SRs,因异质性过高仅进行叙述性综合;对于颈痛SR of SRs,则同时进行叙述性综合和基于足够同质数据的荟萃分析(Meta-analysis, MA)。所有步骤遵循PRISMA 2020指南,但未使用人工智能工具进行数据验证。
**研究结果**
**Strengths with SRs of SRs**
研究人员通过分析两项具体SR of SRs的实践,归纳出该方法的五大优势。第一,SR of SRs提供对大量现有文献的便捷汇总,帮助研究人员、临床医生和政策制定者在信息过载中快速定位关键证据。第二,当多个SR结果存在差异时,通过荟萃分析合并结果可呈现更精细的效应估计,提升证据确定性。例如,单个SR可能显示干预无显著差异,但合并多个SR后可能发现亚组差异。第三,SR of SRs可作为新临床指南制定的切入点,提供高层级证据基础。第四,能明确哪些干预措施已有充分证据,避免不必要的重复研究——继续研究已具高确定性证据的干预可能浪费时间、经费并违反伦理。第五,可识别研究空白,建议对某些干预进行更深层次分析(如meta-synthesis或网络分析)。在两项SR of SRs中,研究人员发现部分运动类型(如低背痛中的运动控制练习与普拉提、颈痛中的传统中国健身与瑜伽)存在大量重叠,提示该领域已过度研究。
**Limitations with SRs of SRs**
研究人员指出该方法的多项局限性。首先,错误传播是核心问题:原始研究→SR→SR of SRs的三层信息传递可能导致数据偏差,其准确性取决于原始数据质量。在两项研究中,研究人员因部分纳入SR结果可疑而不得不回溯原始RCT验证,发现多个错误。为此,鼓励SR作者遵循TIDieR和CERT指南提升报告准确性,并建议期刊编辑确保SR遵循PRISMA 2020;同时呼吁审稿时长应根据文章类型调整,未来可借助人工智能工具辅助数据校验,但当前工具仍不可靠需人工验证。第二,纳入SR的质量严重不足:低背痛SR of SRs中36%的SR质量“极低至极低”,颈痛中该比例达52%。研究人员讨论是否应排除低质量SR以提升自身研究质量——聚焦高质量SR虽可提供更可靠证据,但可能遗漏新兴领域(尚无高质量研究)。第三,评估者间信度挑战:研究由五对研究人员分工完成,虽然成对工作是推荐做法,但不同对之间可能存在评估变异,需通过全组共识讨论(尽管耗时)来减少偏差。AMSTAR-2工具本身也存在局限性:不同评估者对方法学缺陷的识别可能不一致,需进行试点评估;且AMSTAR-2与GRADE均不允许因纳入SR的明显错误而降低证据等级。第四,重叠问题突出:当特定主题中存在比原始研究数量更多的SR时,结论需谨慎。研究人员采用CCA量化重叠,但仍需注意单个大型RCT被多次纳入可能扭曲荟萃分析的汇总估计。第五,数据异质性棘手:不同SR对人群、对照组、干预措施、时间线和结局的描述方式各异,导致难以实现同质化综合。例如,低背痛SR of SRs因异质性过大无法进行荟萃分析,仅采用叙述性综合;而颈痛SR of SRs中,研究人员对足够同质的子集进行荟萃分析,结果强化了叙述性发现。研究人员强调叙述性分析本身就具有价值,但建议在可行时补充荟萃分析以增强结论可信度,并遵循异质性分析指南。
**总结讨论与结论**
讨论部分指出,SR of SRs的价值直接取决于纳入SR的质量、评估工具的选取以及数据处理的严谨性。研究人员在实践中发现,错误预防、低质量SR处置和重叠评估是三大核心挑战。未来研究可考虑纳入更广泛的研究类型(如定性研究),以揭示运动干预效果的机制或心理社会因素。研究结论翻译如下:系统综述的系统综述是分析特定研究领域证据确定性的重要工具。它们提供现有文献的详细概览,可识别研究空白,并可作为新临床指南制定的入口点。然而,开展系统综述的系统综述具有挑战性。因此,作者应考虑数据验证以限制错误传播(从原始研究到SR再到SR of SRs),定义如何处理低至极低质量的SR,并评估重叠(多个SR包含相同原始研究)。此外,推荐成对工作,但需为作者组内的共识讨论预留充足时间。未来关于该主题的综述文章也可考虑纳入更广泛的研究类型,以总结关于潜在机制或对成功干预至关重要的心理社会因素的证据。