《British Journal of Mathematical and Statistical Psychology》:Power priors for latent variable mediation models under small sample sizes
编辑推荐:
本文针对小样本潜变量模型(Latent Variable Models)收敛困难、估计效率低下的问题,系统评估了基于历史数据的功效先验(Power Priors)方法。研究聚焦于马氏权重(Mahalanobis Weight, MW)和单变量先验(Univariate Priors)两种策略,通过模拟研究比较了它们在潜变量中介模型中对间接效应(Indirect Effect)估计的收敛性、偏差、效率和置信区间覆盖率。结果表明,马氏权重方法能有效改善收敛性,但在历史数据与当前数据存在非交换性(Non-exchangeability)时可能产生显著偏差;而单变量先验方法在收敛时能提供更高效的估计,但收敛率较低。研究为小样本潜变量建模提供了重要的方法学参考。
文章内容归纳总结
1. 研究背景与问题
潜变量模型(Latent Variable Models)在心理学、医学和社会科学等领域应用广泛,但通常需要大样本量才能获得可接受的估计效率和可靠的模型收敛。然而,在实际研究中,由于受试者招募困难(如罕见病患者、特殊人群)或资源限制,研究者常常面临样本量不足的困境。在小样本下,传统的频率学方法(如最大似然估计)容易出现不收敛或产生不当解,而贝叶斯分析(Bayesian Analysis)通过引入信息性先验(Informative Priors)为解决这一问题提供了可能。
信息性先验可以基于研究者的经验或历史数据构建。其中,功效先验(Power Priors)是一种特殊的信息性先验,它通过引入一个权重参数(通常记为α0)来控制历史数据对当前分析的影响程度。当α0= 1时,历史数据被完全纳入,相当于增加了样本量;当α0= 0时,历史数据被完全忽略。通过调整α0,研究者可以根据历史数据与当前数据的交换性(Exchangeability)来灵活地利用历史信息。
尽管功效先验在临床研究中已有广泛应用,但大多数方法是为显变量模型设计的,直接应用于参数众多的潜变量模型时,往往面临计算复杂度过高(如需要对所有参数进行积分)的挑战。因此,本研究旨在评估两种适用于潜变量模型的功效先验方法,为小样本潜变量建模提供可行的解决方案。
2. 研究方法与设计
本研究采用模拟研究(Simulation Study)的方法,评估了多种贝叶斯分析策略在潜变量中介模型(Latent Variable Mediation Model)中的表现。
2.1 数据生成模型
研究设定了一个包含三个潜变量(X, M, Y)的中介模型,其中M是X和Y之间的中介变量。模型的结构路径系数(a, b, c)在“当前数据”中均设定为0.4,因此间接效应(Indirect Effect)a*b的总体值为0.16。每个潜变量由5个指标测量,平均因子载荷为0.675,模拟了信度较好的测量工具。
为了考察方法在不同情况下的稳健性,研究设置了5种历史数据与当前数据的交换性条件:
- •
可交换(Exchangeable):历史数据与当前数据来自同一总体。
- •
低载荷(Low Loadings):历史数据的因子载荷较低,模拟测量信度较差的情况。
- •
高截距(High Intercept):历史数据中Y变量的截距较高,模拟基线水平不同。
- •
零效应a(Null a):历史数据中X到M的路径系数a为0,即中介效应不存在。
- •
负效应a(Negative a):历史数据中X到M的路径系数a为-0.4,即中介效应方向相反。
此外,研究还设置了两种当前样本量条件:N1= 50(极小的样本量)和N1= 100(小样本量),历史数据的样本量N0与当前样本量相等。
2.2 评估方法
研究比较了以下几种贝叶斯分析策略:
- •
弥散先验(Diffuse Priors):仅使用当前数据,对参数施加宽泛的先验分布。
- •
弱信息先验(Weakly Informative Priors):仅使用当前数据,但对参数施加范围更窄、更符合实际预期的先验分布。
- •
马氏权重个体法(MW Individual):基于Golchi (2020)的方法,计算每个历史数据点与当前数据质心的马氏距离(Mahalanobis Distance),并将其转换为权重,对历史数据的似然函数进行加权。
- •
马氏权重平均法(MW Average):将历史数据点的马氏权重取平均值,作为一个固定的α0应用于整个历史数据集。
- •
单变量先验法(Univariate Priors):基于Finch (2024)的方法,首先分别对当前数据和历史数据拟合模型,然后基于路径系数a和b的后验分布,利用Haddad et al. (2017)的折扣先验(Discount Priors)方法构建间接效应的置信区间。
评估指标包括:
- •
收敛性(Convergence):使用潜在尺度缩减因子(Potential Scale Reduction Factor, R-hat)和有效样本量(Effective Sample Size, ESS)等指标判断模型是否收敛。
- •
偏差(Bias):估计值与真实值之间的平均差异。
- •
均方根误差(Root Mean Square Error, RMSE):衡量估计的准确性和精密度。
- •
覆盖率(Coverage):95%置信区间或可信区间包含真实值的比例。
3. 主要研究结果
3.1 收敛性
在样本量N1= 100时,弱信息先验方法在所有条件下都表现出最好的收敛性,收敛率超过90%。马氏权重方法(特别是个体法)也显著改善了收敛性,优于仅使用当前数据的弥散先验方法。然而,在极小的样本量(N1= 50)下,所有方法都面临严重的收敛困难,有效样本量普遍较低,表明马尔可夫链蒙特卡洛(MCMC)抽样效率不高。单变量先验方法由于需要当前数据和历史数据分别收敛,其收敛率在所有方法中最低。
3.2 偏差与效率
- •
偏差:在可交换条件下,马氏权重个体法和弱信息先验法均能产生无偏估计。然而,当历史数据与当前数据存在非交换性时,马氏权重方法表现出明显的偏差。例如,在历史数据中介效应为负(a = -0.4)的情况下,马氏权重个体法对间接效应的估计存在显著的负偏差,即低估了真实的效应。单变量先验法在能够收敛的情况下,偏差与弥散先验法相似。
- •
效率(RMSE):在样本量N1= 100时,马氏权重个体法在可交换条件下表现出比弥散先验和弱信息先验更低的RMSE,即估计更精确。然而,在非交换性条件下,其RMSE会因偏差而升高。单变量先验法在收敛时,通常能产生最低的RMSE,表明其估计效率最高。
3.3 覆盖率
在可交换和高截距条件下,所有方法的95%区间覆盖率均在可接受的范围内(92.5% - 97.5%)。然而,在非交换性条件下,马氏权重方法的覆盖率严重不足。例如,在历史数据中介效应为负的情况下,马氏权重个体法的覆盖率仅为53.2%,远低于名义水平95%,表明其区间估计过于乐观,未能充分反映估计的不确定性。
4. 讨论与结论
本研究系统评估了功效先验方法在小样本潜变量中介模型中的应用。研究结果表明,功效先验方法在改善模型收敛性和估计效率方面具有潜力,但也存在明显的局限性。
- •
马氏权重方法:该方法的主要优势在于其计算简便,不依赖于模型参数,因此适用于复杂的潜变量模型。它能有效利用历史数据改善收敛性,并在数据可交换时提高估计效率。然而,其核心缺陷在于,权重仅基于观测变量的分布计算,无法敏感地捕捉到模型结构参数(如路径系数)的非交换性。当历史数据与当前数据在关键参数上存在差异时,该方法会产生有偏的估计和严重不足的区间覆盖率,可能导致错误的统计推断。
- •
单变量先验方法:该方法在能够收敛的情况下,通常能提供最有效(RMSE最低)的估计。然而,其两阶段估计过程(先分别拟合模型,再合并结果)导致其收敛率极低,特别是在小样本情况下,这限制了其实际应用价值。
- •
弱信息先验:作为一种不依赖历史数据的替代方案,弱信息先验在改善收敛性方面表现优异,且在各种条件下都能保持稳健的估计性能。这表明,在缺乏高质量历史数据或对历史数据的交换性存疑时,精心选择的弱信息先验可能是一个更安全、更可靠的选择。
综上所述,功效先验并非解决小样本潜变量建模问题的“万能药”。研究者在选择方法时,必须审慎评估历史数据与当前数据的交换性。马氏权重方法适用于数据分布相似但样本量不足的情况,而单变量先验方法则对模型收敛性有较高要求。在历史数据质量不确定的情况下,弱信息先验可能是一个更稳健的基准策略。未来的研究可以探索更复杂的权重计算方式,例如结合模型拟合信息或开发动态借用(Dynamic Borrowing)策略,以更精准地利用历史信息。