
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于双变量潜在因子模型的离散计数-时间数据联合分析:Beta-二项分布在口语阅读流畅性评估中的应用与优化
【字体: 大 中 小 】 时间:2025年08月30日 来源:British Journal of Mathematical and Statistical Psychology 1.8
编辑推荐:
这篇研究创新性地提出了使用双变量潜在因子模型(bivariate latent factor model)联合分析有界计数数据(Beta-binomial分布)和反应时间数据(log-normal分布)的方法。通过蒙特卡洛期望最大化算法(MCEM)和矩估计法(MOM)进行参数估计,并采用自助法(bootstrap)计算标准误。在口语阅读流畅性(ORF)评估中,该方法能有效捕捉项目水平过度离散(over-dispersion)现象,相比传统二项分布模型具有更好的拟合优度(SRMSR指标)。
引言与方法创新
在行为科学和认知评估领域,计数数据与反应时间(RT)的联合建模已成为研究热点。传统方法如泊松分布模型(RPCM)因严格的等离散假设限制了应用,而本研究针对自然有界的计数数据(如ORF评估中正确朗读的单词数)提出了更灵活的Beta-二项分布框架。该方法通过双潜在特质(准确度θ1i和速度θ2i)分别解释计数和时间的变异,其中计数部分采用概率参数pj(θ1i)=Φ(ajθ1i+bj)的probit连接函数,时间部分采用对数正态模型Tij~N(βj-θ2i,1/αj2)。
模型构建与估计技术
研究采用两种互补的Beta-二项分布解释:混合解释强调项目间异质性,而波利亚坛解释(Pólya urn)则刻画任务内动态关联。通过推导边际矩结构,建立了矩估计量作为MCEM算法的初始值。在计算优化方面,通过条件正态性将二维积分降为一维,并开发了基于拒绝采样的高效MCEM实现。值得注意的是,当分散参数νj接近1时,算法会自动退化为二项模型,确保数值稳定性。
实证研究与模型验证
在模拟研究中,设置J=50个项目、n∈{600,1200,2000}的样本量,比较了不同离散水平(ρicc∈[0,0.17])下的表现。结果显示:
Beta-二项模型在存在过度离散时RMSE显著低于二项模型(如a参数误差降低40%)
潜在相关性ρ的估计在二项模型误设时偏差高达107%
自助法标准误在边界条件(νj→1)下优于观测信息矩阵法
应用价值与拓展
将模型应用于计算机化口语阅读评估(CORE)项目的1382名学生数据,发现:
80%的阅读段落(40/50)显示显著过度离散(95%CI排除1)
潜在特质相关性估计为ρ?=0.419[0.362,0.470]
标准化均方根残差(SRMSR)显示Beta-二项模型拟合优度提升34%
研究还探讨了未来扩展方向,包括引入项目级残差因子δij来放松条件独立性假设,这将使潜在维度增加到J+2,需要开发新的计算策略。这些发展为复杂行为数据的联合建模提供了新的方法论框架。
生物通微信公众号
知名企业招聘