生长混合模型中的类别选择:比较信息准则与非参数和参数贝叶斯方法
《Structural Equation Modeling: A Multidisciplinary Journal》:Class Selection in Growth Mixture Models: Comparing Information Criteria to Nonparametric and Parametric Bayesian Approaches
【字体:
大
中
小
】
时间:2025年10月24日
来源:Structural Equation Modeling: A Multidisciplinary Journal 3.2
编辑推荐:
本研究比较了潜在增长混合模型(LGMM)中传统信息准则(AIC、BIC等)与贝叶斯非参数方法(DPM和MFM)在确定潜在类别数量时的性能。通过模拟实验,考察了样本量、类别分离度、类比例等因素的影响。结果表明,MFM在大多数条件下表现更优,尤其在类别分离度高和大样本时能准确枚举类别数量;而传统信息准则如BIC在低分离度时易低估类别,AIC和AICc则倾向于过度分割。实际案例分析验证了MFM的有效性。建议根据数据特征选择方法:高可靠性、大样本且类别分离度高时优先使用MFM,传统场景可考虑BIC。
在潜变量增长混合模型(LGMM)中,确定潜类数量是一个关键且具有挑战性的任务,它直接影响模型的有效性及对变化过程的实质性解释。研究人员通常依赖信息准则来比较不同潜类数量的模型,但这些方法在潜类分离度不高或潜类大小不均衡时可能会出现不一致的情况。本文探讨了两种替代的贝叶斯方法:非参数方法的Dirichlet过程混合(DPM)模型和参数方法的混合有限混合(MFM)模型。这两种方法都对潜类数量施加了先验分布,并从数据中估计该数量。尽管DPM模型在理论上具有吸引力,但之前的研究发现其在某些条件下倾向于过度提取小的潜类。相比之下,MFM模型提供了一个更为可靠的替代方法,通过显式地将潜类数量视为一个有限的随机变量进行建模。本文在不同样本量、潜类结构、分离度和指标可靠性的情况下,将DPM和MFM与传统信息准则(如AIC、BIC、AICc和aBIC)进行比较,以评估其性能。模拟结果突出了关键的性能差异,并为研究人员在选择潜类数量确定方法时提供了实用指导。在线补充材料中提供了示例的R代码。
确定潜类数量是潜类建模中最具有挑战性和重要性的决定之一。在LGMM中,该模型允许对发展轨迹中的未观察到的异质性进行建模,因此潜类数量的选择直接影响对变化过程中异质性的结论。研究人员通常依靠模型比较指标——如Akaike信息准则(AIC;Akaike, 1974)、贝叶斯信息准则(BIC;Schwarz, 1978)及其样本量调整版本——来比较包含不同潜类结构的模型(即不同数量或构成的潜类)。尽管这些指标被广泛使用,但它们依赖于离散模型比较框架,其性能可能对样本量、潜类分离度和类内变异性等因素敏感(Nylund等,2007)。因此,探索更具灵活性和稳健性的估计策略对于识别潜类数量具有重要意义。
本文研究了贝叶斯方法在LGMM中估计潜类数量的潜力,重点介绍了DPM模型和MFM模型。这些方法在概念上与传统的模型比较范式有所不同,它们将潜类数量视为随机变量,而不是固定的模型参数。DPM模型因其对未知且可能无限的混合类的建模能力,在统计学和机器学习文献中引起了广泛关注(Ferguson, 1973;Rasmussen, 1999)。然而,已有研究指出,在某些条件下,DPM模型会导致潜类数量估计不一致,常常产生多余的小类(Miller & Harrison, 2014)。为了克服这一问题,Miller和Harrison(2018)引入了MFM模型。该模型将潜类数量C视为一个随机但有限的变量,并对其施加先验分布,使得潜类数量可以直接从数据中推断出来。MFM模型的后验分布涵盖了潜类数量和类特定参数,为估计潜类结构提供了一个更连贯和一致的框架。尽管MFM模型在应用贝叶斯统计中越来越受到欢迎,但其在LGMM中的应用尚属空白。
本文的目标是双重的:(1)介绍DPM和MFM模型作为LGMM模型选择的可行且理论基础坚实的替代方法;(2)系统地将这些方法与基于信息准则的传统模型选择方法进行比较,评估其在不同模拟条件下对潜类数量的识别能力。本文的后续部分将详细介绍所提出的模型的技术规格。
在传统的LGMM中,通过信息准则确定最佳潜类数量的方法通常涉及拟合一系列具有不同潜类数量的模型,从单类模型开始,逐步增加到一个预定义的最大数量。对于每个模型,计算信息准则值,并选择准则值最小的模型作为最佳模型,因为其在模型拟合和模型复杂性之间提供了最佳平衡。然而,仅依赖单一的信息准则可能不够充分,建议结合使用多个准则以提高模型选择的稳健性。
为了比较DPM和MFM模型与传统方法的性能,我们采用了Qiu等人(2025)提出的一种后处理程序,其中使用了一种称为信息变异(VI)的损失函数来识别潜类数量C。VI基于信息论,提供了最小化后验期望损失的点估计(Meil?, 2007;Wade & Ghahramani, 2018)。它通过所有后验聚类来识别一个代表性的聚类,并利用该聚类中的独特标签数量作为C的估计值。已有研究表明,VI对α参数的误设具有较强的鲁棒性,并且能够一致地恢复潜类数量(Wade & Ghahramani, 2018)。VI在R包mcclust.ext中实现(Wade & Wade, 2015)。我们展示了如何在补充材料中的R代码中使用VI。
本研究旨在探讨两种贝叶斯方法(DPM和MFM)在LGMM中估计潜类数量的性能,并将其与传统方法(如AIC和BIC)进行比较。我们设计了模拟研究,以测量DPM、MFM和信息准则在不同条件下估计或选择正确潜类数量的性能。模拟条件包括五个设计因素:潜类数量(1或3)、样本量(200、400、1000)、潜类分离度(定义为马氏距离,例如1、2、3、5)、潜类比例(相等和不相等)以及测量可靠性(通过平均增长曲线可靠性AGCR;Shryane, 2021)。图1展示了LGMM的结构;表1总结了模拟因素及其对应水平;表2详细列出了每个潜类数量和分离度的生长因子均值。
在人口层面,我们从一个具有四个时间点和两个生长因子(截距和斜率)的LGMM模型中生成数据(见图1)。表1和表2总结了人口模型的参数值。截距和斜率因子的方差被固定为1.0和0.5,而误差项的方差则根据可靠性(即AGCR)变化。在包含多个潜类的条件下,类特定的生长因子均值依赖于所期望的潜类分离度,如图1所示。表1和表2提供了生长因子均值在不同分离度下的详细情况。
在模拟设计中,我们考虑了五种设计因素:潜类数量(1或3)、样本量(200、400、1000)、潜类分离度(定义为马氏距离,例如1、2、3、5)、潜类比例(相等和不相等)以及测量可靠性(通过平均增长曲线可靠性AGCR;Shryane, 2021)。图1展示了LGMM的结构;表1总结了模拟因素及其对应水平;表2详细列出了每个潜类数量和分离度的生长因子均值。
在模拟研究中,我们发现样本量是影响模型估计性能的重要因素,特别是在LGMM中(Enders & Tofighi, 2008;Lubke & Muthén, 2007;Nylund等,2007;Tein等,2013)。基于之前的研究,我们包括了小样本(200)、中样本(400)和大样本(1000)(Diallo等,2017;Kim等,2022)。在3类条件下,我们操纵了潜类比例,以反映相等和不相等的潜类比例。相等比例反映了34:33:33的分布,而不相等条件则包括一个明显的多数类和一个少数类,如70:20:10的比例。在模拟研究中,我们允许AGCR随时间增加,这在发展研究中是一个合理的假设。为了定义单一指标,我们将AGCR平均值设定为0.5(低可靠性)和0.9(高可靠性)。
在模拟研究中,我们采用了一种非信息性正态先验Normal(0, 10^3)来指定截距和斜率因子的均值。对于测量误差项的方差?_t^2,我们选择了逆伽玛先验InvGamma(1, 1),该先验被认为是相对信息丰富的,并且已被Gelman(2006)推荐用于避免不合适的后验分布。生长因子的协方差矩阵Ψ采用了非信息性逆威沙特先验InvWishart(W_0, ν_0),其中W_0为单位矩阵,ν_0为2(Zhang等,2007)。对于DP的浓度参数α,我们设定了一个弱信息性伽马先验Gamma(2, 2),以覆盖小和大的值,如Ishwaran(2000)所建议。表3总结了模型参数的先验分布。
在模拟研究中,我们发现样本量是影响模型估计性能的重要因素,特别是在LGMM中(Enders & Tofighi, 2008;Lubke & Muthén, 2007;Nylund等,2007;Tein等,2013)。基于之前的研究,我们包括了小样本(200)、中样本(400)和大样本(1000)(Diallo等,2017;Kim等,2022)。在3类条件下,我们操纵了潜类比例,以反映相等和不相等的潜类比例。相等比例反映了34:33:33的分布,而不相等条件则包括一个明显的多数类和一个少数类,如70:20:10的比例。在模拟研究中,我们允许AGCR随时间增加,这在发展研究中是一个合理的假设。为了定义单一指标,我们将AGCR平均值设定为0.5(低可靠性)和0.9(高可靠性)。
在模拟研究中,我们观察到样本量和潜类分离度对模型选择结果有显著影响。例如,当潜类分离度较低时,DPM和MFM模型往往低估了潜类数量,而随着样本量的增加,这些模型的性能有所提升。相比之下,信息准则如AIC和BIC在样本量较小的情况下容易高估潜类数量,而样本量较大时则容易低估。aBIC则表现出一定的样本量效应,随着样本量的增加,其正确潜类选择率也有所提高。这些发现表明,选择潜类数量的方法在不同条件下表现各异,因此需要结合具体的研究情境进行选择。
在实际应用中,本文提供的模拟结果和方法论工具对于研究人员具有重要的参考价值。通过比较不同模型在不同条件下的表现,研究人员可以更好地理解在何种情况下使用哪种方法更为合适。例如,当潜类分离度较高且样本量较大时,MFM模型显示出更好的稳定性。而当样本量较小或潜类分离度较低时,DPM模型可能表现出较高的不稳定性。此外,研究还指出,信息准则如BIC和aBIC在某些条件下可能无法准确识别潜类数量,而MFM和DPM模型则提供了更灵活和稳健的估计方法。
在模拟研究中,我们还发现,类比例对模型选择结果的影响相对较小。尽管不相等的类比例可能在某些情况下影响模型性能,但整体来看,各方法的表现较为一致。这表明,当存在多个潜类时,类比例的变化对模型选择的影响可能有限,因此在实际应用中,类比例可能不是决定模型选择的关键因素。
在实际应用中,我们建议研究人员根据研究条件选择合适的潜类数量确定方法。例如,当潜类分离度较高且样本量较大时,MFM模型可能是最佳选择。而当样本量较小或潜类分离度较低时,DPM模型可能更适用于探索性分析。对于传统的信息准则如AIC和BIC,它们在样本量较大时可能表现出一定的优势,但在样本量较小的情况下容易高估潜类数量。因此,研究人员在使用这些指标时应保持谨慎,并结合其他方法进行验证。
在实际应用中,我们还建议研究人员在模型选择过程中考虑数据的可靠性和结构。例如,当测量可靠性较高时,模型选择方法的性能通常更优。而在可靠性较低的情况下,模型选择方法可能更容易出现过拟合或欠拟合的问题。此外,数据的复杂性和时间点的数量也会影响模型选择方法的性能,因此在实际研究中,应根据具体的数据结构和研究目标选择合适的方法。
最后,本文的研究结果表明,潜类数量的确定是一个复杂且需要谨慎处理的问题。不同的模型选择方法在不同条件下表现各异,因此研究人员应结合具体的研究情境,选择最适合的方法。同时,本文还指出,未来的研究可以进一步探讨这些方法在不同数据结构和模型设定下的表现,以及如何通过调整先验分布来提高模型选择的稳健性。此外,对于缺失数据、非线性增长模型和更复杂的潜类结构,这些方法的表现也需要进一步研究。这些发现为研究人员在实际应用中提供了重要的指导,并有助于推动潜类建模方法的进一步发展。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号