基于混合模型的贝叶斯两步多重插补方法,用于处理缺失的EMA数据
《Statistics in Medicine》:A Bayesian Two-Step Multiple Imputation Approach Based on Mixed Models for Missing EMA Data
【字体:
大
中
小
】
时间:2025年11月24日
来源:Statistics in Medicine 1.8
编辑推荐:
生态瞬时评估(EMA)数据中缺失值的处理方法及其性能比较。采用二步贝叶斯多重插补框架,基于随机影响线性混合模型(RILM)、混合效应位置尺度模型(MELS)和共享参数混合效应位置尺度模型(SPMELS)进行参数估计,通过偏差、覆盖率、后验预测密度(ELPD)和预测后检查(PPC)评估模型性能。结果表明,MELS和SPMELS在捕捉时间变异性(WS方差)和关联缺失模式方面优于RILM,尤其在处理MNAR缺失机制时表现更优。实际应用案例MBC1研究显示,SPMELS在模型拟合和预测准确性上具有显著优势。建议在EMA数据分析中优先考虑MELS和SPMELS模型,以提升缺失数据插补的准确性和可靠性
在当今科学研究中,尤其是心理学、社会学以及行为健康领域,生态瞬间评估(Ecological Momentary Assessment, EMA)作为一种数据收集方法,被广泛用于获取个体在自然环境中的实时行为和体验数据。这种方法的核心在于通过重复测量的方式,捕捉被试在不同时间点上的动态变化,从而更准确地反映行为和心理状态的波动性。然而,EMA数据的一个显著挑战是缺失数据的存在,这种缺失可能由多种因素引起,如被试的非响应、设备故障或时间安排的不规律等。缺失数据不仅影响数据的完整性,还可能对后续分析的准确性产生负面影响,因此,如何有效处理缺失数据成为EMA研究中的关键问题。
为了应对这一挑战,研究人员提出了多种数据填补方法,其中**多重填补**(Multiple Imputation, MI)因其能够同时处理数据缺失问题并保留原始数据的变异性而受到广泛关注。多重填补的基本思想是通过生成多个可能的填补值来替代缺失数据,从而在分析过程中考虑填补的不确定性。这种方法相较于传统的单一填补(Single Imputation)更具优势,因为它不仅提供了更准确的填补结果,还能够通过多个填补数据集的综合分析提高统计推断的稳健性。
本文提出了一种基于贝叶斯方法的**两步多重填补框架**,并将其应用于EMA数据的填补。该框架利用**混合模型**(Mixed Models)来构建填补模型,具体包括以下三种模型:
1. **随机截距线性混合模型**(Random Intercept Linear Mixed Model, RILM):该模型假设数据的均值部分存在个体间的随机截距,即每个被试在时间上的平均值可能不同。然而,RILM模型无法捕捉数据内部变异(Within-Subject Variance, WSV)的变化,限制了其在处理EMA数据时的适用性。
2. **混合效应位置尺度模型**(Mixed-effects Location Scale Model, MELS):该模型不仅考虑了均值的随机截距,还引入了**随机尺度效应**(Random Scale Effect),以描述个体在不同时间点上的变异情况。通过同时建模均值和变异,MELS能够更好地适应EMA数据中可能存在的异质性。
3. **共享参数混合效应位置尺度模型**(Shared Parameter Mixed Effects Location Scale Model, SPMELS):该模型在MELS的基础上进一步引入了**共享参数**,即通过一个与响应变量相关的随机效应来建模缺失机制。这种建模方式允许填补过程将缺失数据与响应变量的特征联系起来,从而提高填补的准确性。
本文通过模拟研究和实际案例分析,对这三种模型在填补EMA数据时的性能进行了系统比较。模拟研究中,研究人员生成了包含时间不变变量和时间变化变量的EMA数据集,并设定了特定的缺失模式,如随研究天数和时间段变化的缺失率。通过改变模型中的关键参数(如均值的随机截距、变异的随机效应及其之间的相关性),研究者评估了不同模型对填补结果的影响。结果表明,MELS和SPMELS在填补过程中能够更准确地捕捉数据内部变异,因此在填补误差和覆盖率方面优于RILM模型。特别是在处理具有较高内部变异的数据时,MELS和SPMELS展现出更强的建模能力,而RILM由于忽略了变异部分,其填补结果在偏差和覆盖率上表现较差。
在实际应用部分,本文将所提出的模型应用于“Make Better Choices 1”(MBC1)研究,该研究旨在评估干预措施对健康行为(如饮食和活动)的影响。MBC1研究涉及204名参与者,他们通过佩戴加速度计并使用定制应用程序进行日常活动的自我监测。由于部分被试未能完成所有数据采集,导致数据缺失。研究人员通过RILM、MELS和SPMELS三种模型对缺失数据进行填补,并评估了填补后数据的统计特性,如偏差、覆盖率和填补误差。
通过比较填补前后的数据特征,研究发现,MELS和SPMELS在填补误差和覆盖率方面均优于RILM模型。特别是在建模内部变异和缺失机制之间的关系时,SPMELS模型在填补误差方面表现更优,因为其引入了共享参数,使得填补过程能够更准确地反映被试在不同时间段的行为模式。例如,在模拟研究中,当内部变异参数(如均值的随机截距)较高时,MELS和SPMELS的填补误差相对较小,而RILM由于无法建模内部变异,填补误差较大。此外,当被试的活动水平或静坐时间变化较大时,SPMELS能够更准确地识别出这种变化,从而提高填补的准确性。
从实际案例分析来看,SPMELS模型在填补活动数据(如MVPA)时表现出更强的适应性。通过对填补数据的后验预测检查(Posterior Predictive Checking, PPC),研究人员发现,SPMELS模型的填补数据与原始数据之间的偏差更小,且覆盖率更高,表明该模型在填补过程中能够更有效地捕捉被试的行为模式。此外,SPMELS模型还能够识别出缺失数据与响应变量之间的潜在关联,例如,某些时间段的活动水平较低可能导致数据缺失率增加。
本文还探讨了不同模型在填补EMA数据时的适用性。对于一般情况,MELS模型能够提供较为可靠的填补结果,特别是在建模内部变异和缺失机制之间没有直接关联时。然而,当缺失数据与被试的活动水平或静坐时间之间存在显著关联时,SPMELS模型则表现出更优的性能。因此,研究人员建议在实际应用中,根据数据的特征和缺失模式选择合适的填补模型,以提高分析的准确性和可靠性。
此外,本文还讨论了多重填补模型在EMA研究中的潜在扩展。例如,可以考虑在模型中引入**时间不变变量的缺失**(如年龄或性别),或对**时间变化变量的随机斜率**(Random Slopes)进行建模,以进一步提高填补的灵活性和准确性。此外,对于非正态分布的数据(如二元变量或泊松分布变量),也可以在贝叶斯框架下扩展多重填补模型,以适应更广泛的数据类型。
总体而言,本文的研究表明,在处理EMA数据缺失问题时,采用包含内部变异建模的MELS或SPMELS模型比传统的RILM模型更具优势。尤其是在缺失数据与响应变量之间存在关联的情况下,SPMELS模型的填补效果更优,能够更准确地捕捉被试的行为模式。因此,未来在EMA研究中,应更加关注内部变异的建模,并结合缺失机制进行填补,以确保研究结果的稳健性和有效性。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号