编辑推荐:
本文通过对结直肠吻合术相关研究的分析,比较了频率主义(frequentist)和贝叶斯(Bayesian)荟萃分析的结果与解释。发现二者点估计和区间数值相近,但假设检验的方法和解释不同。贝叶斯方法更灵活直观,在有先验知识或需序贯更新时优势明显。
引言
在医学研究中,同一主题的多项试验结果常存在差异。当试验未达到设定统计阈值,就会按传统假设被报告为阴性结果。这可能使读者误以为不存在真正差异,因此需要更客观的分析方法。
常用的传统荟萃分析(频率主义荟萃分析)是将多个相似试验结果合并的一种方法。此外,还有贝叶斯荟萃分析及其改进方法,以及对试验进行累积或序贯更新的方法。
贝叶斯方法基于条件概率,其核心是后验概率(updated beliefs)由数据(likelihood)和先验概率(initial belief)共同决定。与频率主义统计不同,贝叶斯输出的可信区间(CrI)能直接表明真实值在该区间的概率,贝叶斯因子(BF10)则是在备择假设(H1)和原假设(H0)下观察到数据的概率之比。本文旨在比较不同方法合并研究结果的输出,并对比频率主义和贝叶斯观点的解释差异。
方法
选取两项关于结直肠主题的随机对照试验(RCT)的荟萃分析进行讨论,一项研究经吻合口管(TAT)的使用,另一项研究吲哚菁绿(ICG)荧光成像在预防吻合口漏方面的应用。这两项荟萃分析最初都采用频率主义方法,使用随机效应(RE)模型,并将吻合口漏作为主要结局。
提取纳入荟萃分析的各项研究的个体对数优势比(log odds ratio)及置信区间,进而得到标准误差。对相同试验数据进行贝叶斯荟萃分析,采用非信息性或平坦先验来估计结局和异质性。设定结局分布为柯西分布(Cauchy (0, 0.707)),异质性分布为逆伽马分布(inverse gamma (1, 0.15)),对固定效应(FE)和随机效应模型进行贝叶斯模型平均荟萃分析,并总结结果。
按试验发表的时间顺序进行序贯分析,从一个空先验(null prior)开始,依次添加试验,评估累积结果,这些结果将作为下一次添加试验的先验。使用 R 软件,通过 metafor 包进行传统频率主义荟萃分析,通过 metaBMA 包进行贝叶斯模型平均荟萃分析。
结果
TAT 使用的荟萃分析包含 3 项 RCT。传统荟萃分析得出优势比(OR)为 0.670,95% 置信区间(CI)为 0.386 - 1.162,p 值为 0.15;贝叶斯模型平均方法得出 OR 为 0.719,95% 可信区间(CrI)为 0.43 - 1.17,BF10为 0.681。两种方法的点估计和区间相似,均倾向于 TAT 的使用,但 p 值和 BF10都未提供足够证据拒绝 H0。
ICG 荧光灌注成像的荟萃分析总结了 6 项 RCT。频率主义估计的 OR 为 0.625,95% CI 为 0.437 - 0.894,p 值为 0.0005,支持 ICG 在减少吻合口漏方面的应用;贝叶斯估计的 OR 为 0.607,95% CrI 为 0.440 - 0.835,BF10为 18.93,表明在 H1假设下观察到数据的概率是 H0假设下的 19 倍。尽管个体研究效应量差异较大,但贝叶斯计算的估计效应量波动较小,且随着研究的增加,BF10呈序贯增加,表明对 H1的置信度不断提高。
讨论
重新分析两项关于减少结直肠吻合口漏干预措施的已发表荟萃分析,比较贝叶斯模型平均法、序贯贝叶斯法与传统频率主义荟萃分析的结果。虽然数值点估计和区间差异不大,但解释不同,尤其是假设检验的方法截然不同。
在 TAT 减少吻合口漏的例子中,贝叶斯估计更保守,区间更窄。随着研究增加,95% CrI 会变窄,而频率主义的 CI 提供的真实估计信息较少,因为它依赖重复测量。频率主义 p 值不能直接说明 H1的情况,而 BF10能明确给出在 H1和 H0下观察到数据的概率比,更具信息性。
在 ICG 使用的荟萃分析中,频率主义输出在传统阈值下显著,但 p 值无法说明 H1的可能性,BF10则表明在 H1假设下获得结果的可能性近 20 倍。若将频率主义计算视为贝叶斯的特殊情况,会导致对似然比的严重高估。
贝叶斯方法的另一个优势是可对新研究进行序贯更新,无需校正多重假设检验。累积方法可将先前研究作为后续研究的先验,随着研究增加,CrI 更精确,BF10增加,对 H1的置信度提高。此外,贝叶斯框架还有多种可调整的方法,如选择不同先验分布等,但本研究未深入探讨。
局限性
本讨论未涵盖贝叶斯荟萃分析的许多方面,旨在突出贝叶斯和频率主义荟萃分析的解释差异,而非全面介绍贝叶斯方法。研究采用非信息性先验、特定先验分布和模型平均方法,虽能提供保守估计,但未探索贝叶斯框架内的其他变化。
同时,贝叶斯分析中先验的选择具有主观性,若使用信息性先验,结果可能不同。累积贝叶斯方法对研究添加顺序敏感,应在有明确时间顺序模式的情况下使用。此外,研究结论可能无法完全推广到其他研究情境,且所有荟萃分析方法仅适用于可比研究,若临床异质性显著,复杂计算也无法克服方法学差异。
结论
频率主义和贝叶斯荟萃分析虽可能基于先验证据得出相似点估计,但在解释和假设检验方面差异显著。贝叶斯方法更灵活、直观且信息丰富,尤其适用于有先验知识或需要序贯更新新试验的情况。在实际研究中,应根据具体需求选择合适的分析方法,避免仅依赖频率主义方法。