编辑推荐:
在大规模纵向神经影像研究中,缺失数据处理是关键挑战。本文针对 ABCD Study? 数据,探讨传统列表删除法的局限性,研究人员评估了多重插补(MI)、倾向评分加权(PSW)和全信息最大似然法(FIML)。结果表明这些方法能提升分析稳健性,为该领域数据处理提供重要参考。
在生命科学与医学研究领域,对大脑发育的长期追踪研究具有至关重要的意义,尤其是像青少年脑与认知发展这样的课题。然而,在大规模的纵向神经影像数据收集中,缺失数据问题一直是困扰研究者的一大难题。这些缺失数据可能源于实验误差、参与者不响应或 attrition(损耗)等多种因素。传统的处理方法如 listwise deletion(列表删除法)虽然简单,但可能引入严重偏差,导致研究结果的内部和外部效度受损,无法准确反映目标人群的真实情况。因此,寻找更有效的缺失数据处理方法,对于提升纵向神经影像研究的准确性和可靠性迫在眉睫。
为了解决这一问题,来自相关研究机构的研究人员以 Adolescent Brain and Cognitive Development(ABCD)Study? 这一大型纵向神经影像数据集为研究对象,开展了关于缺失数据处理方法的研究。该研究成果发表在《Developmental Cognitive Neuroscience》上,旨在评估和比较多种先进统计方法在处理缺失数据时的效果,为该领域的研究提供科学的方法学指导。
研究人员主要采用了以下几种关键技术方法:
- 多重插补(Multiple Imputation,MI):通过迭代过程生成多个完整数据集,结合 Rubin’s rules 合并结果,有效估计缺失值并考虑误差不确定性。
- 倾向评分加权(Propensity Score Weighting,PSW):基于协变量估计缺失概率,调整样本权重以平衡组间差异,适用于处理 MNAR(非随机缺失)数据。
- 全信息最大似然法(Full Information Maximum Likelihood,FIML):利用所有可用数据最大化似然函数,无需删除或插补数据,适用于 MAR(随机缺失)和 MCAR(完全随机缺失)数据。
3.1 缺失值模式分析
通过对 ABCD Study? 中四种成像模态(dMRI、task-fMRI、rs-fMRI、sMRI)的缺失数据进行分析,发现 task-fMRI 数据缺失最为常见,且缺失模式与社会人口学变量(如年龄、性别、种族、家庭收入、父母教育程度等)存在关联。例如,低家庭收入和父母教育程度较低的参与者,其神经影像数据缺失的概率更高。
3.2 多重插补评估
使用 Modified Model 进行多重插补,结果显示各成像模态的 PSR(潜在尺度缩减因子)均小于 1.05,表明模型收敛良好。FMI(缺失信息分数)值显示不同变量受缺失数据影响程度各异,如年龄变量的 FMI 值较低,说明其估计受缺失数据影响较小。
3.3 倾向评分匹配效果评估
通过梯度提升算法估计倾向评分,成功平衡了处理组(数据完整)和对照组(数据缺失)的协变量。标准化平均差异绝对值均小于 0.10,表明倾向评分加权有效减少了组间偏差,尤其在年龄、种族和家庭收入等变量上效果显著。
3.4 缺失数据处理方法比较
比较四种方法(列表删除法、多重插补、倾向评分加权、全信息最大似然法)发现,年龄估计值在各方法间差异 negligible(可忽略不计),但家庭收入和父母教育程度的估计值存在一定 variability。这表明缺失数据处理方法的选择对不同变量的影响不同,需根据研究问题和数据特点谨慎选择。
3.5 各方法点估计比较
进一步对各方法的点估计进行详细比较,结果显示,虽然年龄的估计值在不同方法间较为一致,但对于缺失数据较多的变量(如家庭收入和父母教育程度),不同方法的点估计存在差异。这提示研究者在处理复杂数据时,需综合考虑多种方法的结果。
研究结论表明,传统的列表删除法在处理纵向神经影像数据缺失值时存在明显局限性,可能导致偏差和统计效力下降。而多重插补、倾向评分加权和全信息最大似然法等先进统计方法能够更有效地利用数据信息,提升分析的稳健性和结果的可靠性。这些方法在处理不同缺失数据机制(MCAR、MAR、MNAR)时各有优劣,研究者应根据数据特点和研究问题选择合适的方法。
该研究的重要意义在于,为纵向神经影像研究提供了实用的缺失数据处理工具和方法指南,有助于推动该领域研究的规范化和科学化。同时,研究也强调了在研究设计和数据收集中减少缺失数据的重要性,呼吁关注社会人口学差异对数据完整性的影响,以促进更公平、更准确的科学研究。