在当代临床研究实践中,序贯设计(group sequential designs)因其能够在不影响统计严谨性的前提下实现早期试验终止而备受青睐。这种设计通过预设的期中分析(interim analysis),使研究人员能够在获得充分证据时提前终止试验,从而节约资源和时间。然而,现有的序贯设计方法学主要集中在评估治疗对临床终点的意向性治疗(intention-to-treat)效应,而对于旨在阐明因果机制的中介分析(mediation analysis)在该设计框架下的特性却鲜为人知。这一方法学空白在心理学试验中显得尤为突出。以FeelingSafe研究为例,这项双臂研究比较了认知疗法与友情陪伴对持续性迫害妄想的治疗效果,其二次分析重点考察了担忧、失眠和安全寻求行为等假设的妄想维持因素是否中介了妄想的改变。类似地,正在进行中的RAPID试验也计划在多阶段设计中评估潜在的中介变量。这些实践需求凸显了在序贯设计背景下理解中介分析特性的迫切性。传统的中介分析通过考察治疗如何通过中介变量(mediator)影响结局变量(outcome)来阐明因果机制。在简单中介模型中,治疗X通过两条路径影响结局Y:一是直接路径(直接效应,direct effect),二是通过中介变量M的间接路径(间接效应,indirect effect)。总效应(total effect)则为直接效应与间接效应之和。然而,当这种因果机制被嵌入到序贯设计中时,其统计特性变得复杂且未知。Kim May Lee和Richard Emsley在《BMC Medical Research Methodology》上发表的最新研究,首次系统探讨了在包含一次期中分析的序贯设计中,当中介分析被用于理解因果机制时,其统计推断的性质和挑战。这项研究不仅填补了方法学空白,还为未来在适应性设计中实施中介分析提供了重要指导。研究人员采用模拟研究(simulation study)方法,评估了当连续结局的治疗效应部分或完全由测量因果机制的连续中介变量所中介时,现有分析技术的性能。研究特别关注了拒绝总效应、直接效应和间接效应零假设的概率,并考察了最大似然估计(maximum likelihood estimator)在这些效应上的偏差。此外,研究还探讨了当试验提前终止(或未提前终止)时,惩罚最大似然估计(penalized maximum likelihood estimator)和条件最大似然估计(conditional maximum likelihood estimator)是否比通常的最大似然估计具有更小的偏差。研究设计考虑了一个具有一次期中分析的序贯设计,允许因效力(efficacy)而提前停止。通过模拟连续中介变量和连续结局变量的数据生成过程,研究人员评估了不同效应大小组合下中介分析的性能。在统计方法上,研究比较了包括Sobel检验、联合显著性检验(joint significance test)和蒙特卡洛置信区间检验(Monte Carlo confidence interval test)在内的多种中介效应检验方法,并对不同估计量在试验停止不同阶段的条件偏差(conditional bias)进行了系统评估。
03的概率 b Dg在期中分析和最大样本量处停止的频率'>研究结果揭示了几个重要发现。首先,当样本量计算忽略因果机制时,中介变量的存在会降低序贯设计的效力(power),但I型错误(type I error)控制不受影响。这一发现表明,序贯设计的样本量计算必须考虑底层因果机制的总变异性,否则检测意向性治疗(总)效应的总体效力可能低于名义值。其次,最大似然估计仅在中介-结局路径(path)中是无偏的,这一发现对中介分析的性质产生了重要影响,因为现有方法通常依赖它来估计路径。对于其他路径,惩罚最大似然估计的偏差与第一阶段最大似然估计相似,而条件最大似然估计在仅估计总效应和直接效应时,显示出可忽略或比通常最大似然估计更小的偏差。
g在n=347时 a 最大似然估计的偏差 b 条件估计的偏差 c 估计量被平均的频率'>关于假设检验的性能,研究发现对于总效应的检验,I型错误率控制在名义水平附近,数值范围从0.0477到0.0569,均在10,000次模拟运行的95%预测区间内。这表明中介变量的存在不影响总效应检验的错误率控制。然而,对于直接效应的检验,数值I型错误率超过了I型错误率的95%预测区间,表明在序贯设计中对直接效应的检验可能存在I型错误膨胀的问题。在中介效应检验方面,研究发现在固定设计(fixed design)中,当a、b大小相同但c'不同时,检验的效力是一致的,而在序贯设计中,效力随着c'的增大而降低。例如,联合显著性检验检测ab=0.39×0.14的效力从73.61%下降到44.77%,当c'从0增加到0.39时。这一现象可以通过以下事实解释:当c'较大时,序贯设计更频繁地在第一阶段停止,导致用于在第一阶段拒绝H03的数据更少,并且在第二阶段拒绝的频率更低。
g在n=1041时 a 最大似然估计的偏差 b 条件估计的偏差 c 估计量被平均的频率'>估计量的条件偏差分析显示,β^mle.1高估而β^mle.all低估了θ的真实值,其中β^mle.1的绝对偏差大于β^mle.all。相同的观察模式适用于a和c'的估计。这些估计量对c'的绝对偏差与θ相似或略小,而对a的偏差则低得多。重要的是,研究发现β^mle.1和β^mle.all对b是无偏的,因为中介与结局的关系不受干预的修改。针对样本量计算,研究提出了调整效应大小(adjusted effect size)公式:(b2σm2+σy2)ab+c′,该公式可用于序贯设计的样本量计算,以确保在b≠0时达到所需的效力。这一发现将固定试验设计中针对因果机制的样本量计算方法成功扩展到了序贯设计领域。研究的讨论部分强调了几个重要启示。随着试验中期中分析使用的增加,例如由英国国家健康与护理研究所(NIHR)效力和机制评估项目资助的研究,研究人员需要理解序贯设计下中介分析的性质。本研究的结果强调了序贯设计样本量计算中的一个注意事项:只有当样本量计算考虑调整效应大小时,才能获得名义效力。对于二次分析,研究建议计算所有参数的最大似然估计,并辅以惩罚最大似然估计或条件最大似然估计来估计总效应和直接效应,同时承认这些估计量并非无偏。此外,当呈现条件最大似然估计时,应注意其变异性大于第二阶段结束时计算的最大似然估计,这是由于在条件停止时间时信息损失造成的。该研究的局限性在于仅考虑了连续结局和因效力而提前停止的设计。研究人员认为,模拟结果对其他适应性设计中的中介分析具有良好的指示意义。未来研究可以探索针对中介分析的最佳检验程序,开发替代估计量,并探索这些方法在其他适应性设计背景下的应用。这项研究为在序贯设计中实施中介分析提供了重要方法学指导。研究表明,与固定试验设计一样,序贯设计的样本量计算应考虑底层因果机制,否则检测意向性治疗效应的总体效力可能低于名义值。研究人员建议报告多个估计量,并承认它们可能对某些中介路径有偏差。未来需要更多研究来开发序贯设计下间接效应的分析和估计方法。表7 模拟发现总结