编辑推荐:
在纵向聚类随机试验中,楼梯设计(staircase designs)的相关理论和应用存在不足。研究人员开展模拟研究,评估样本量公式的有限样本性能及相关性结构误设的影响。结果表明单序列单簇设计需谨慎使用,考虑衰减的相关结构更优,对优化该设计意义重大。
在医学研究的领域中,纵向聚类随机试验对于探究干预措施的效果至关重要。其中,标准阶梯楔形设计(standard stepped wedge design)虽能实现干预的分阶段实施,让所有群组最终都接受干预,但在每个时间段收集所有群组的数据成本高昂且不切实际。于是,楼梯设计作为一种不完全阶梯楔形设计应运而生,它减少了数据收集负担,在一些实际研究场景中展现出优势,比如在针对澳大利亚原住民胎儿酒精谱系障碍儿童的校本干预研究中就得到了应用。
然而,楼梯设计在理论和实践方面仍存在诸多问题。此前虽有研究探索其在估计治疗效果方面的统计效能,也有公式用于样本量和效能计算,但这些公式在有限样本下的性能以及模型假设(尤其是组内相关性结构假设)被违反时结论的稳健性都有待评估。同时,在分析楼梯设计数据时,正确指定组内相关性结构至关重要,误设可能导致治疗效果的推断出现偏差。而且,当试验中群组数量较少时,样本量计算和数据分析的有效性也受到质疑,标准方法可能会导致第一类错误率膨胀。
为了解决这些问题,澳大利亚莫纳什大学(Monash University)的研究人员 Ehsan Rezaei - Darzi、Kelsey L. Grantham、Andrew B. Forbes 和 Jessica Kasza 开展了一项模拟研究。他们聚焦于基本楼梯设计(basic staircase designs),这种设计在每个序列中仅包含一个干预前对照期和一个干预后时期,旨在评估基于线性混合模型分析此类设计数据时的有限样本性能,以及组内相关性结构误设对治疗效果推断的影响。该研究成果发表在《BMC Medical Research Methodology》上,为楼梯设计在医学研究中的合理应用提供了重要依据。
研究人员采用了多种关键技术方法。首先,他们构建了用于连续结局的混合效应模型,考虑了两种组内相关性结构,即可交换(exchangeable)和块可交换(block - exchangeable)结构,并基于此设定了不同的参数值。接着,开展了析因模拟研究,生成了大量数据集,每种参数组合生成 1000 个数据集,共涉及 576 种配置和 576,000 个数据集。然后,对每个模拟数据集拟合四种模型,运用限制最大似然估计(REML)进行参数估计,并针对群组数量少于 50 的情况应用 Satterthwaite 和 Kenward - Roger 小样本校正。
研究结果如下:
- 正确指定模型时观察值与理论值的一致性:在正确指定模型(即分析模型与数据生成模型匹配)的情况下,当真实数据生成模型为可交换模型且用可交换模型分析时,观察到的第一类错误通常能得到较好控制,接近名义率 5%。但在部分场景下,如 4 个序列、每个序列 1 个群组、较大的群组 - 时期样本量(50 或更多)且组内相关系数(ICC)为 0.1 或更高时,第一类错误会超过名义率。对于块可交换模型,当每个序列只有 1 个群组时,第一类错误率会膨胀,且随着 ICC 增加、簇自相关(CAC)值减小以及每个群组 - 时期参与者数量增加,错误率上升。在比较经验检验效能与理论检验效能时,发现当名义第一类错误达成时,20 个群组的设计中经验检验效能与理论值仍有偏差,每个序列 1 个群组时经验检验效能往往低于理论值,而 40 个或更多群组的设计中这种偏差则不太明显。
- 相关性结构误设对治疗效果推断的影响:当模型拟合错误时,若真实模型是块可交换模型但拟合为可交换模型,会导致经验第一类错误过高,随着 CAC 值从 0.95 减小到 0.5、ICC 和每个群组 - 时期参与者数量增加,这种情况会更明显,同时置信区间覆盖率显著过低。当真实结构是可交换模型却拟合块可交换模型时,属于模型过度参数化,此时观察到的第一类错误在每个序列只有 1 个群组时略低于名义值,置信区间覆盖率略高于名义的 95% 水平。
- 其他结果:应用 Kenward - Roger 校正的结果与 Satterthwaite 校正相似,但在每个序列只有 1 个群组的块可交换模型设计中,Kenward - Roger 校正过于保守,导致第一类错误率几乎为 0,检验效能过低且置信区间覆盖率被高估。对于少量群组(总共 4 个)的可交换模型拟合,应用 Satterthwaite 或 Kenward - Roger 近似能提高置信区间覆盖率,但无法完全达到名义的 95% 水平。对于每个序列 1 个群组的块可交换模型设计,Satterthwaite 校正可提高覆盖率。当假设时间对结局有线性影响时,除每个序列 1 个群组的场景外,结果与采用分类时间效应时相似,且在这些场景下使用 Kenward - Roger 校正,性能指标有所改善,但仍未达到可接受水平。
在研究结论和讨论部分,研究表明在使用分类时期效应和 Satterthwaite 小样本校正时,若相关性结构正确指定且设计包含至少 40 个群组,经验检验效能与理论值能紧密对齐。然而,每个序列只有 1 个群组的楼梯设计会导致第一类错误膨胀,应谨慎使用。同时,相关性结构误设会导致不良后果,如置信区间覆盖率低和第一类错误率膨胀,尤其是当相关性衰减更明显时。在分析阶段,若可能存在显著的相关性衰减,建议拟合块可交换模型;在设计阶段,应纳入考虑衰减的相关性结构进行样本量计算,以确保研究有足够效能检测感兴趣的治疗效果。此外,若时间对结局的线性效应假设可能成立,在模型中指定时间的线性形式会有诸多益处,如降低第一类错误率和提高治疗效果置信区间的覆盖率,这对群组数量较少的设计尤为重要。虽然研究发现 Satterthwaite 校正在每个序列只有 1 个群组或总共 10 个群组或更少的试验中优于 Kenward - Roger 校正,但仍存在第一类错误率膨胀的风险。该研究为楼梯设计在医学研究中的合理应用提供了关键指导,有助于研究人员更准确地设计试验、分析数据,从而得出可靠的治疗效果推断,推动医学研究的发展。