编辑推荐:
在处理健康数据缺失问题时,研究人员针对多重填补链式方程(MICE)法展开研究。他们以 100 个国家 2015 - 2019 年死亡率相关健康指标数据为基础,生成不同缺失率数据进行插补分析。结果表明 MICE 法在缺失值达 50% 时稳健性高,超 70% 则可靠性下降,该研究为处理缺失数据提供了重要参考。
在全球健康研究领域,各国的健康数据对于政策制定和资源分配至关重要。然而,数据缺失问题却成为了研究路上的 “绊脚石”。国际组织提供的大量国家特定健康指标数据,常以时间序列形式呈现,用于监测各国健康状况变化。但由于人口覆盖、数据共享标准等多方面问题,各国健康数据缺失现象普遍存在。例如,许多低收入和中等收入国家因资源有限、政治因素等,难以收集和报告准确的健康数据,导致研究人员在利用这些数据进行研究时面临诸多挑战。
为了解决这些问题,来自印度昌迪加尔医学教育与研究研究生院(Postgraduate Institute of Medical Education and Research, Chandigarh)的研究人员 K. P. Junaid、Tanvi Kiran 等人开展了一项重要研究。该研究旨在为选择合适的缺失数据比例进行纵向健康相关数据插补提供初步指南,并评估 MICE 方法在处理不同缺失率数据时的稳健性。研究成果发表在《Population Health Metrics》杂志上。
研究人员为开展此项研究,主要运用了以下关键技术方法:首先,从全球卫生观测站(Global Health Observatory,GHO)数据库提取 100 个国家 2015 - 2019 年与死亡率相关的健康指标完整数据,包括青少年死亡率(Adolescent Mortality Rate,AMR)、五岁以下儿童死亡率(Under-five Mortality Rate,UMR)、婴儿死亡率(Infant Mortality Rate,IMR)、新生儿死亡率(Neonatal Mortality Rate,NMR)和死产率(Stillbirth Rate,SBR)。接着,采用逐步单变量截肢程序在完整数据中随机生成缺失值,创建缺失率从 10% 到 90% 的九个不完整数据集。之后,使用 R 语言中的 “mice” 包,运用 MICE 方法对不完整数据集进行插补,并选择预测均值匹配(Predictive Mean Matching,PMM)工具生成插补值。最后,通过重复测量方差分析(Repeated Measures Analysis of Variance,RM-ANOVA)、评估指标(均方根误差 RMSE、平均绝对偏差 MAD、偏差 Bias 和比例方差 PV)计算以及箱线图可视化分析等方法,评估 MICE 方法的稳健性。
研究结果如下:
- RM-ANOVA 分析:RM-ANOVA 分析显示,完整数据集和插补数据集之间存在显著差异,尤其是缺失比例超过 50% 的插补数据。对 AMR、UMR、IMR、NMR 和 SBR 指标进行分析,发现 Mauchly 球性检验表明所有指标的球性假设均被违反,因此使用 Greenhouse-Geisser 校正报告 RM-ANOVA 结果。经校正后,发现这些指标在完整数据集和插补数据集之间的均值存在显著差异。进一步的 Bonferroni 调整多重比较分析表明,AMR、UMR、IMR 和 SBR 指标在 80%、90%、60% 和 70% 的插补数据与未插补数据集相比,存在统计学显著差异,而 NMR 指标在不同缺失率的插补数据集与未插补数据集之间未显示出显著差异。
- 评估指标分析:评估指标结果显示,随着缺失比例的增加,RMSE、MAD、Bias 和 PV 值总体呈上升趋势,表明插补数据与完整数据的偏差逐渐增大。例如,所有健康指标在 90% 插补数据时的 RMSE 值最高,AMR、UMR、IMR、NMR 和 SBR 的 RMSE 值分别达到 72.9、29.9、17.8、11.7 和 7.4。多数指标在缺失比例超过 70% 时,评估指标表现为 “低” 水平。不过,在缺失比例为 50% 的数据集上,各种健康指标的评估指标大多呈现 “高” 性能。
- 箱线图分析:通过箱线图的可视化分析发现,当缺失比例达到 50% 时,插补数据与完整数据的差异较小;缺失比例为 60% 和 70% 时,差异为中等程度;而缺失比例超过 70% 时,插补数据与完整数据相比出现了显著变化。
综合研究结果与讨论,该研究得出结论:MICE 方法在处理缺失值比例高达 50% 的数据时具有较高的稳健性,与完整数据集的偏差较小;当缺失比例在 50% - 70% 之间时,需谨慎使用,因为会出现适度的变化;而缺失比例超过 70% 时,会导致显著的方差收缩和数据可靠性降低。这一研究为研究人员和政策制定者在处理纵向健康数据缺失问题时提供了重要的实践指导,有助于他们更准确地理解数据插补的局限性和偏差,从而在公共卫生领域做出更明智的决策,合理分配资源。同时,该研究也为后续进一步研究 MICE 方法在不同情境下的性能以及探索更有效的数据插补方法奠定了基础,具有重要的理论和实践意义。