系统评价方法学质量与偏倚风险评估:ROBIS与AMSTAR-2工具的200篇综述比较研究
《Research Synthesis Methods》:Exploring the methodological quality and risk of bias in 200 systematic reviews: A comparative study of ROBIS and AMSTAR-2 tools
【字体:
大
中
小
】
时间:2025年10月28日
来源:Research Synthesis Methods 6.1
编辑推荐:
为解决系统评价(SR)方法学质量与偏倚风险(RoB)评估工具选择难题,研究人员对200篇SR开展ROBIS与AMSTAR-2的比较研究。结果显示,73%的SR为低/极低质量(AMSTAR-2),81%存在高偏倚风险(ROBIS),工具间9%评估结果对立。ROBIS更注重偏倚深度分析,AMSTAR-2评估效率更高。研究强调工具互补性,为政策制定提供关键方法学支持。
在医疗决策中,系统评价(Systematic Reviews, SRs)被视为最高级别的证据来源,其结论直接影响治疗方案的制定和公共卫生政策的实施。然而,随着SRs数量的爆炸式增长,决策者面临一个严峻挑战:如何从海量综述中快速识别出方法学严谨、结论可靠的研究?当前,SRs的质量参差不齐,部分综述因设计缺陷或报告不透明可能导致“元偏倚”(meta-biases),即因遗漏研究、选择性报告结果或错误解读数据而系统性偏离真实效果。这一问题在非Cochrane综述中尤为突出,但即便是权威机构发布的SRs也可能存在隐性偏倚。
为规范SRs的评估,国际学界开发了多种批判性评估工具,其中AMSTAR-2(A Measurement Tool to Assess Systematic Reviews, version 2)和ROBIS(Risk Of Bias In Systematic reviews)最为常用。AMSTAR-2聚焦SRs的方法学质量(如研究设计、文献检索的全面性),而ROBIS专注于评估结果和结论的偏倚风险。尽管两者被Cochrane和JBI(Joanna Briggs Institute)共同推荐,但其在评估维度、耗时和适用场景上的差异尚未明确。选择不当的工具可能导致评估结果矛盾,进而误导证据使用者。为此,由Carole Lunny领衔的国际团队在《Research Synthesis Methods》发表论文,通过对200篇SRs的横向比较,首次系统揭示了两工具的异同与适用边界。
本研究采用横断面设计,纳入200篇SRs(含干预性研究和流行病学综述),其中68篇来自Cochrane数据库。研究团队通过 crowdsourcing(众包)招募27名经验丰富的评估员,在标准化决策规则下独立应用AMSTAR-2(16个条目)和ROBIS(24个条目)工具。关键方法包括:1. 项目映射分析:通过共识会议将两工具条目按概念(方法学质量、偏倚风险、报告完整性、外推性)分类对比;2. 时间效率评估:记录每篇SR的评估耗时,并校正工具条目数量;3. 评估者一致性分析:计算评估员间百分比一致性(Percentage Agreement)。所有数据均经质量核查(84%的SRs由资深评估员复核),确保结果可靠性。
ROBIS与AMSTAR-2的条目高度重叠(如协议预注册、偏倚评估方法),但存在核心差异:ROBIS独有的9个条目涉及外推性(如条目1.2、1.5、B)、结论偏倚(如条目C,关注“spin”即扭曲性解读)和发表偏倚;AMSTAR-2独有的3个条目侧重方法学透明度(如排除研究合理性、资金来源报告)。这种差异导致9%的SRs评估结果对立(如ROBIS判为高风险而AMSTAR-2判为高质量)。
如图1、2所示,SRs整体质量堪忧:81%(162/200)存在高偏倚风险(ROBIS),73%(146/200)为低/极低质量(AMSTAR-2)。Cochrane综述表现优异(55.9%为高质量),而非Cochrane综述中仅0.8%达高质量。未进行Meta分析的SRs问题更突出,如AMSTAR-2条目3(研究设计选择理由)仅29.8%的SRs充分报告。
AMSTAR-2中位评估时间51分钟,显著短于ROBIS的64分钟。但按条目标准化后,ROBIS单条目耗时更少(2.7分钟 vs. 3.2分钟),反映其结构化设计的高效性。评估员间一致性良好(75%的条目一致性>70%),归因于标准化培训和决策规则。
本研究证实ROBIS与AMSTAR-2为互补而非替代工具:ROBIS适用于需深度分析偏倚来源(如结论扭曲、外推性)的场景,而AMSTAR-2更适配快速方法学质量筛查。工具独有条目(如ROBIS的“spin”评估、AMSTAR-2的冲突兴趣报告)决定了其不可互换性。当前SRs的普遍低质量警示证据使用者需优先关注预注册协议、排除研究合理性等核心条目。
未来研究可探索混合工具开发,平衡评估深度与效率。本研究为AI辅助SR评估(如作者团队开展的WISEST AI项目)提供了基准数据集,助推证据合成方法的自动化革新。最终,精准选择评估工具将提升医疗决策的可靠性,避免低质综述对公共卫生的潜在危害。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号