编辑推荐:
在纵向队列研究中,缺失数据是常见问题。为比较重复测量方差分析(RMA)、t 检验(TT)与线性混合效应(LME)、协方差模式(CP)、广义估计方程(GEE)模型的表现,研究人员开展模拟研究。结果显示 LME 和 CP 模型在处理缺失数据时表现最佳,该研究为数据分析方法选择提供重要参考。
在医学研究的广阔领域中,常常需要收集某一结果的重复测量数据,以此来探究该结果随时间的变化情况,这在许多疾病的研究进程中至关重要。就好比在跟踪患者治疗后的康复效果,或是观察某种药物长期使用后的疗效变化时,都离不开对这些纵向数据的精准分析。然而,一个棘手的问题却如影随形 —— 数据缺失。想象一下,你精心记录的患者健康数据,因为各种原因,部分数据丢失了,这该多么令人头疼。数据缺失通常被分为完全随机缺失(MCAR)、随机缺失(MAR)和非随机缺失(MNAR)这三大类。在纵向研究里,MCAR 的假设往往不太现实,这就给数据分析带来了更大的挑战。
重复测量方差分析(RMA)在一些医学领域中,曾经是分析重复测量数据的常用方法。但它存在不少问题,它会舍弃那些含有缺失值的数据,这不仅可能导致估计均值和均值差异出现偏差,因为完整数据的受访者很难代表原始样本,而且从科学伦理的角度来看,丢弃这些数据也是不可取的。此外,RMA 还假定结果测量的方差随时间保持相等,且所有时间点的结果之间具有相同的相关性,而这在实际的纵向数据中,几乎是不可能实现的。t 检验(TT)在重复测量数据分析中也比较常用,不过,无论是配对 TT 还是独立样本 TT,在处理 MAR 数据时,同样会产生有偏差的结果,并且检测效能也不如那些能利用所有数据的模型。
面对这些困境,为了让临床研究人员能直观地了解 RMA 和 TT 的偏差,来自荷兰乌得勒支大学医学中心(University Medical Center Utrecht)的研究人员 Rebecca K. Stellato 等人,开展了一项别出心裁的模拟研究1。他们以儿童抗反流手术(ARS)后的健康相关生活质量(HRQoL)为研究对象,模拟了不同类型(MCAR 和 MAR)和不同程度(4 - 40%)的单调缺失数据(以失访的形式呈现),对五种数据分析方法进行了全面比较。这五种方法分别是线性混合效应(LME)模型、协方差模式(CP)模型、广义估计方程(GEE)模型、RMA 以及在所有时间点进行的独立 TT(用于组间比较)或在 12 个月和 0 个月之间的差异进行配对 TT(用于组内比较)23。
研究人员基于多项儿科 ARS 研究结果,利用 R 语言中的 MASS 包模拟了 25 名神经正常(NN)儿童和 25 名神经受损(NI)儿童在 0、3、6 和 12 个月时的 HRQoL 数据。在模拟过程中,还考虑了不同的失访情况。对于 NN 组,失访被假定为完全随机,失访率在 4 - 10% 之间;而 NI 组的失访率则更高(10 - 40%),并且失访与基线 HRQoL 相关,即 HRQoL 得分较低的儿童更有可能失访45。
在研究方法上,研究人员主要采用了以下关键技术:
- 数据模拟技术:通过设定不同的参数,如均值、标准差、自相关性等,利用 R 语言的 MASS 包模拟出符合实际情况的 HRQoL 数据,同时生成不同类型和程度的缺失数据。
- 统计分析模型:运用五种不同的数据分析模型,即 LME、CP、GEE、RMA 和 TT,对模拟数据进行分析,并使用 emmeans 包估计各模型的边际均值、标准误差和自由度等67。
- 性能评估指标:通过比较估计边际均值与真实总体均值来评估偏差,同时考察了经验标准误差、相对效率增益、95% 置信区间的覆盖率、置信区间宽度以及检验效能等指标8。
下面来看看具体的研究结果:
- 偏差:在 MCAR 组中,所有方法的偏差都非常小,几乎接近 0。但在 MAR 组中,独立 TT 和 RMA 分析随着失访率的增加,偏差逐渐增大,而 LME、CP 和 GEE 模型的偏差始终保持在接近 0 的水平9。
- 精度:RMA 的经验标准误差在 MCAR 组中略高于其他方法,在 MAR 组中这种差异更为明显。TT 和 RMA 在所有对比中的经验标准误差都较大,尤其是在 MAR 组中。相比之下,GEE 和 CPM 在相对精度上比 LME 有 2 - 3% 的提升1011。
- 覆盖率:CPM 和 LME 的 95% 置信区间覆盖率在所有对比和场景中都非常接近 95%。GEE 的覆盖率始终略低,但也从未低于 92.3%。而配对 TT 和 RMA 在 MAR 组中,随着失访率的增加,覆盖率逐渐变差12。
- 置信区间宽度:CPM 的 95% 置信区间在所有场景和对比中平均最窄,结果也最为稳定。RMA 在 MAR 组内对比中的置信区间比 LME、CPM 和 GEE 更宽,配对 TT 的置信区间宽度更大且变化更明显13。
- 效能:组内对比的效能在两组中都较低,且 MAR 组高于 MCAR 组。在 MAR 组中,配对 TT 和 RMA 的效能明显低于其他三种方法,且随着失访率增加而显著下降。GEE 在所有场景中的效能最高,其次是 CPM 和 LME。组间对比的效能在所有方法中都非常接近 1,但 RMA 和独立 TT 在较高失访水平下略有下降14。
- 收敛问题:LME 分析在部分模拟中产生了收敛警告,但仍能估计模型和结果。CPM 在两次模拟中遇到了边际均值估计的错误,需要使用误差自由度代替近似 Satterthwaite 自由度1516。
综合研究结果和讨论部分,该研究具有重要意义。正如预期的那样,LME 和 CP 模型在处理较高水平的 MAR 数据时,在偏差和覆盖率方面表现最佳,CP 模型在本研究中甚至略优于 LME,这可能与时间的非线性趋势有关。在低水平的 MCAR 数据情况下,所有方法的结果都相当。然而,配对 TT 和 RMA 在处理 MAR 数据时会产生有偏差的结果,覆盖率和精度都较差。GEE 虽然能产生无偏差的结果,但 95% 置信区间略窄,导致覆盖率略低和效能略有夸大。这项研究为医学研究人员在处理纵向队列研究中的缺失数据时,提供了明确的数据分析方法选择依据,有助于提高研究结果的准确性和可靠性,推动医学研究的发展。