基于双变量潜在因子模型的离散计数-时间数据联合分析:Beta-二项分布在口语阅读流畅性评估中的应用与优化

【字体: 时间:2025年08月30日 来源:British Journal of Mathematical and Statistical Psychology 1.8

编辑推荐:

  这篇研究创新性地提出了使用双变量潜在因子模型(bivariate latent factor model)联合分析有界计数数据(Beta-binomial分布)和反应时间数据(log-normal分布)的方法。通过蒙特卡洛期望最大化算法(MCEM)和矩估计法(MOM)进行参数估计,并采用自助法(bootstrap)计算标准误。在口语阅读流畅性(ORF)评估中,该方法能有效捕捉项目水平过度离散(over-dispersion)现象,相比传统二项分布模型具有更好的拟合优度(SRMSR指标)。

  

引言与方法创新

在行为科学和认知评估领域,计数数据与反应时间(RT)的联合建模已成为研究热点。传统方法如泊松分布模型(RPCM)因严格的等离散假设限制了应用,而本研究针对自然有界的计数数据(如ORF评估中正确朗读的单词数)提出了更灵活的Beta-二项分布框架。该方法通过双潜在特质(准确度θ1i和速度θ2i)分别解释计数和时间的变异,其中计数部分采用概率参数pj1i)=Φ(ajθ1i+bj)的probit连接函数,时间部分采用对数正态模型Tij~N(βj2i,1/αj2)。

模型构建与估计技术

研究采用两种互补的Beta-二项分布解释:混合解释强调项目间异质性,而波利亚坛解释(Pólya urn)则刻画任务内动态关联。通过推导边际矩结构,建立了矩估计量作为MCEM算法的初始值。在计算优化方面,通过条件正态性将二维积分降为一维,并开发了基于拒绝采样的高效MCEM实现。值得注意的是,当分散参数νj接近1时,算法会自动退化为二项模型,确保数值稳定性。

实证研究与模型验证

在模拟研究中,设置J=50个项目、n∈{600,1200,2000}的样本量,比较了不同离散水平(ρicc∈[0,0.17])下的表现。结果显示:

  1. 1.

    Beta-二项模型在存在过度离散时RMSE显著低于二项模型(如a参数误差降低40%)

  2. 2.

    潜在相关性ρ的估计在二项模型误设时偏差高达107%

  3. 3.

    自助法标准误在边界条件(νj→1)下优于观测信息矩阵法

应用价值与拓展

将模型应用于计算机化口语阅读评估(CORE)项目的1382名学生数据,发现:

  • 80%的阅读段落(40/50)显示显著过度离散(95%CI排除1)

  • 潜在特质相关性估计为ρ?=0.419[0.362,0.470]

  • 标准化均方根残差(SRMSR)显示Beta-二项模型拟合优度提升34%

研究还探讨了未来扩展方向,包括引入项目级残差因子δij来放松条件独立性假设,这将使潜在维度增加到J+2,需要开发新的计算策略。这些发展为复杂行为数据的联合建模提供了新的方法论框架。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号