编辑推荐:
在纵向研究中,数据缺失问题普遍存在。研究人员开展了两阶段多重填补法(MI)处理纵向复合变量缺失数据的研究。结果显示,合适假设下该方法偏差最小,含纵向信息的 FCS 方法表现最佳。这为处理复杂缺失数据提供了有效策略。
在生物医学研究的广袤领域中,尤其是在纵向研究的战场上,数据缺失就像一颗随时可能引爆的 “炸弹”,给研究结果的准确性和可靠性带来了巨大威胁。想象一下,一项旨在追踪人们健康状况随时间变化的研究,却因为部分数据的缺失,导致无法清晰地看到疾病的发展轨迹和影响因素,这是多么令人头疼的事情。而且,数据缺失的原因复杂多样,比如参与者中途退出研究(这就像比赛中的选手突然离场)、某些检测指标未能成功获取等。传统的多重填补法(Multiple Imputation,MI)虽然被广泛应用,但它在处理不同类型的数据缺失时,常常 “一刀切”,默认各种缺失数据类型为随机缺失(Missing at Random,MAR) ,这显然无法满足复杂多变的实际研究需求。于是,为了突破这一困境,来自波士顿大学公共卫生学院(Boston University School of Public Health)的研究人员 Xuzhi Wang、Martin G. Larson 和 Chunyu Liu 踏上了探索之旅,他们的研究成果发表在《BMC Medical Research Methodology》上,为解决数据缺失问题带来了新的曙光。
研究人员为了评估两阶段 MI 在处理纵向复合变量缺失数据方面的性能,开展了一系列深入的研究。在研究过程中,他们用到了以下几个主要关键的技术方法:首先,基于 Framingham 心脏研究(Framingham Heart Study,FHS)的数据,构建了一个包含五个连续和二元成分的纵向复合变量 Composite - 5,用于模拟真实研究场景。其次,采用两阶段 MI 框架,分两步处理不同类型的缺失数据,第一阶段处理缺失非随机(Missing Not at Random,MNAR)的数据,第二阶段处理 MAR 的数据。在这个过程中,运用了完全条件指定(Fully Conditional Specification,FCS)方法进行数据填补,并比较了三种不同结构的 FCS 方法,即 All FCS(AFCS)、Cross - sectional FCS(XFCS)和 Longitudinal FCS(LFCS) 。此外,通过模拟研究和真实数据应用,全面评估了两阶段 MI 在保留复合变量均值、捕捉时间趋势以及恢复预测能力等方面的表现。
研究结果
- 模拟研究结果
- 均值和斜率:在不同的缺失场景下,合适的 MNAR 假设(如在 Scenario 1 中,k=1.1,1.2 ;在 Scenario 2 中,k=0.8,0.9 )能使两阶段 MI 产生最小的偏差和最优的覆盖概率。考虑纵向信息的 AFCS 和 LFCS 方法在合适假设下表现出色,优于 XFCS。而在 Scenario 3 中,由于 MNAR 机制复杂,MAR 假设反而产生了相对准确的估计123。
- 死亡率 HR:在 Scenario 1 中,合适的 MNAR 假设(k=1.1,1.2 )产生的对数风险比(log Hazard Ratio,log HR)无偏,覆盖概率大。在 Scenario 2 中,MAR 假设表现最佳。在 Scenario 3 中,MAR 假设和部分 MNAR 假设(k=1.1,1.2 )表现相似且优于其他假设。总体上,AFCS 和 LFCS 在多数情况下比 XFCS 表现更好45。
- 真实数据应用结果
- 均值和斜率:在 FHS 后代队列数据中,考虑到 dropout 可能导致的生存偏差,采用k=1.1和1.2的 MNAR 假设,能使 Composite - 5 的估计均值更低,更符合实际情况。同时,不同 FCS 方法在均值和斜率估计上表现相似,但在考虑 MNAR 假设时,Composite - 5 呈现出随时间下降的趋势,反映出心血管健康状况的恶化678。
- 死亡率 HR:在预测全因死亡率方面,使用所有可用数据的 CC - AVAIL 和 LOCF 方法未发现 Composite - 5 与死亡率的关联。而两阶段 MI 在不同假设下,结果有所不同。当假设 dropout 是由于健康状况恶化(如k=1.1,1.2 )时,较高的 Composite - 5 预测死亡率降低;当假设 dropout 是由于健康改善(如k=0.8,0.9 )时,结果则相反910。
研究结论与讨论
综合模拟研究和真实数据应用的结果,研究人员发现,在两阶段 MI 框架下,选择合适的 FCS 方法和 ignorability 假设至关重要。当假设合理且考虑纵向信息时,两阶段 MI 能展现出最佳性能,有效减少偏差,提高估计的准确性。与传统方法相比,如完全病例分析(Complete Case,CC)和末次观察结转(Last Observation Carried Forward,LOCF) ,两阶段 MI 具有明显优势。同时,研究还发现不同 FCS 方法在不同场景下各有优劣,例如当组件内相关性和组件间相关性都较高时,AFCS 更合适;当组件内相关性高但组件间相关性低时,LFCS 因其计算负担低和解释简单而更具优势。此外,研究人员也指出了研究存在的局限性,如 Composite - 5 未包含体力活动和饮食因素,可能无法全面评估心血管健康;敏感性分析结果多样,增加了解释的复杂性。不过,敏感性分析也增强了研究结论的稳健性和全面性。
这项研究的重要意义在于,它为处理纵向复合变量的缺失数据提供了一种创新且有效的方法,拓展了两阶段 MI 的应用范围。其研究成果有助于研究人员在面对复杂的缺失数据问题时,做出更科学的决策,选择更合适的方法进行数据处理和分析,从而提高研究结果的可靠性和有效性,为生物医学研究领域在处理数据缺失问题上开辟了新的道路,推动相关研究朝着更精准、更深入的方向发展。