基于截断平均随机牛顿算法的项目反应理论在线参数估计:提升动态教育评估的计算效率

《Psychometrika》:A RECURSIVE STOCHASTIC ALGORITHM FOR REAL-TIME ONLINE PARAMETER ESTIMATION IN ITEM RESPONSE THEORY: ENHANCING COMPUTATIONAL EFFICIENCY FOR DYNAMIC EDUCATIONAL ASSESSMENT

【字体: 时间:2025年12月24日 来源:Psychometrika 3.1

编辑推荐:

  本文推荐一项针对动态教育评估中实时参数估计难题的研究。为解决传统离线方法(如EM算法)在处理实时流数据时计算成本高的问题,研究人员提出了截断平均随机牛顿算法(TASNA),用于项目反应理论(IRT)框架下的在线参数估计。研究结果表明,TASNA在保证几乎必然收敛和渐近正态性的理论性质下,显著提升了计算效率,为大规模在线评估和实时反馈系统提供了强有力的替代方案。

  
随着信息技术的发展,大规模教育评估正在从静态、周期性的数据分析转向实时、动态的数据分析。在线考试平台和教育评估工具(如自适应测试)能够实时收集学生的反应和行为数据,为动态评估教育过程和学习成果提供了新的可能性。然而,传统的大型教育数据通常是静态的,并且定期更新,难以实时捕捉教育环境的动态变化和学生学习状态的实时情况。实时数据具有高速、大量和复杂的特点,需要高效的计算方法来快速识别模式、检测学习障碍并预测结果。此外,利用这些实时数据使教育者能够及时调整教学策略,为学生提供个性化的学习体验。
项目反应理论(IRT)已成为分析此类大型数据集的有力工具。在IRT中,参数估计是一个核心组成部分,直接决定了模型的科学有效性和结果的解释。IRT中最常用的估计方法是基于期望最大化算法(EM)的边际最大似然估计(MMLE-EM)。然而,该方法的计算复杂度主要受潜在变量维数的影响。随着潜在变量维数的线性增加,E步中积分所需的求积节点数呈指数增长,导致计算成本和工作量大幅增加。此外,这些技术的实现通常依赖于完整和静态的数据集。在实时动态评估中,参数需要随着数据流的进入而持续更新,而依赖完整数据集的估计方法会产生高昂的计算成本。因此,越来越需要更快、更高效的在线参数估计方法,能够实时更新而不依赖完整数据集。
为了应对这些挑战,本研究提出了一种递归随机算法,即截断平均随机牛顿算法(TASNA),用于在IRT框架内进行高效的在线参数估计。该算法与R语言mirt包中实现的期望最大化(EM)算法相比,显著提高了计算效率。该算法为传统的离线EM方法提供了一个强大的替代方案。此外,本研究还研究了该算法的渐近性质,证明了其几乎必然收敛和渐近正态性。使用模拟和真实数据进行的数值实验证明了所提出方法的实用性。
本研究为开展相关研究,主要应用了以下几个关键技术方法:首先,研究基于两参数逻辑(2PL)模型和多维两参数逻辑(M2PL)模型构建理论框架;其次,提出了截断平均随机牛顿算法(TASNA)进行在线参数估计,该算法结合了增量更新机制、随机优化策略和理论可靠性;此外,采用期望后验估计(EAP)更新能力参数;最后,通过模拟研究(操纵被试数量、项目数量、潜在维度、高斯-埃尔米特求积节点数和步长等因子)和实证数据分析(使用TIMSS真实数据)来评估算法的性能,并与传统的EM算法(通过mirt包实现)进行比较。

模型表述

本文重点研究了两种广泛使用的项目反应模型:单维两参数逻辑(2PL)模型和多维两参数逻辑(M2PL)模型。在2PL模型中,第n个被试的正确反应概率由项目区分度参数aj、难度参数bj和被试能力参数θn决定。M2PL模型则将其扩展为多维框架,其中被试能力θn是一个Q维向量,项目区分度参数aj也是Q维向量,项目还有一个标量截距参数dj。为了简化算法表述,对参数进行了重新定义,使得模型可以统一表示为基于逻辑函数的概率形式。

随机牛顿在线估计算法

传统的EM算法及其M步中使用的牛顿迭代法在处理大规模数据集或需要实时参数估计时,计算量巨大,变得不切实际。随机牛顿算法(SNA)与传统牛顿算法结构相似,都依赖于目标函数的梯度和Hessian矩阵来确定参数更新方向。但关键区别在于,SNA通过递归过程增量地估计这些量,避免了在整个数据集上的 exhaustive 计算,显著减少了计算资源的消耗,使其特别适合大规模数据应用和在线数据流的有效处理。

通过截断平均随机牛顿算法更新项目参数

对于项目参数估计,TASNA算法在每次接收到一个新被试的反应数据时,进行增量更新。算法计算当前数据的经验梯度向量和Hessian矩阵(基于上一次迭代的参数估计),并利用递归公式累积历史Hessian信息以近似完整的Hessian矩阵。参数更新公式包含一个随机牛顿步和一个平均步。具体而言,对于每个项目j,首先计算一个中间参数估计值?ηn, j,然后通过加权平均得到最终的参数估计值?ηn, j。步长序列γn= 1/(n + cη)γ,其中γ ∈ (1/2, 1)。平均步使用序列κn= 1/n。Hessian矩阵的更新涉及一个截断操作αn,k,以确保其正定性和收敛性。

通过期望后验估计更新能力参数

对于被试能力参数的估计,研究采用期望后验估计(EAP)方法。在项目参数已知或已估计的情况下,当第n个被试的反应数据到达时,可以快速更新其潜在特质。EAP估计通过计算能力参数的后验期望作为点估计,利用高斯-埃尔米特求积法近似积分。其优势在于即使测试项目较短,估计的能力参数也不会向无穷大发散,特别适合数据有限或先验信息较强的情况。

随机牛顿在线估计算法的实现

算法流程包括初始化、循环处理新数据、计算后验概率、更新能力参数、循环更新每个项目的参数(包括随机牛顿步、平均步和Hessian矩阵更新),以及施加模型可识别性约束。

理论性质

研究在数值近似的目标函数G(η)下,对TASNA的渐近性质进行了严格分析。在参数有界、潜在能力服从标准多元正态分布、以及Hessian矩阵最小特征值有正下界等正则性假设下,证明了以下定理:
定理1(一致性)表明,当样本量n趋于无穷时,项目参数估计值?ηn和?ηn几乎必然收敛到真实参数值η,缩放后的Hessian矩阵估计值?Sn,j也几乎必然收敛到真实的Hessian矩阵Sj= ?2G(ηj)。
定理2(收敛速率)指出,平均参数估计值?ηn的误差以O(log n / n)的速率下降,快于非平均估计值?ηn的速率O(log n / nγ)。Hessian矩阵估计值的误差以O(1/n)的速率下降。
定理3(渐近正态性)表明,缩放后的估计误差√n (?ηn,j- ηj)随着n趋于无穷,依分布收敛于均值为零、协方差矩阵为Sj-1的多元正态分布。这为后续的统计推断(如构建置信区间或假设检验)奠定了基础。
备注1和2分别讨论了能力参数估计的收敛速率和标准误的计算方法。

模拟研究

模拟研究旨在评估所提出的在线参数估计方法在2PL和M2PL模型下的有效性和实用性。通过操纵被试数量、项目数量、潜在特质维度、高斯-埃尔米特求积节点数和步长等五个因素,在多种模拟条件下比较TASNA、TSNA(截断随机牛顿算法,TASNA在κn固定为1时的特例)和EM算法(通过mirt包实现)的性能。
参数恢复结果显示,随着样本量增加,所有方法的估计精度都有所提高。但在潜在维度较高时,EM算法性能显著下降,而两种在线算法在各种设置下表现相对稳定。TASNA在γ=0.65和0.75时表现最佳,其估计精度与EM算法相当甚至更优,且收敛更平滑稳定。TSNA在γ=0.75和0.9时表现较好,但波动性大于TASNA。求积节点数K=10在大多数情况下已能在精度和效率间取得良好平衡。能力参数恢复结果与EAP估计相近。
实时评估图显示,TASNA的参数估计轨迹更加稳定,收敛迅速。计算时间比较表明,在线算法的运行时间显著短于EM算法,且随着样本量、项目数和维度增加,其计算效率优势更加明显。标准误评估结果表明,所提方法计算的标准误数值稳定可靠。

实证示例

使用TIMSS真实数据评估TASNA的性能。数据包含八年级9874名学生在数学和科学两个领域的28个项目的反应。分析分别在一维(2PL模型)和二维(M2PL模型)设定下进行。
在一维2PL模型分析中,TASNA和TSNA与EM算法得到的项目参数估计值非常接近,但随机牛顿算法对极端值更敏感,而TASNA通过平均步骤减少了异常值和噪声的影响,估计更稳定。实时轨迹图也证实了TASNA的稳定性。
在二维M2PL模型分析中,参数估计结果显示出清晰的双因子负荷结构,第一个维度主要反映数学问题解决能力,第二个维度主要反映科学能力,与现有文献一致,支持了所提方法的有效性。

结论与讨论

本研究针对教育评估向实时、动态分析转变的需求,提出了截断平均随机牛顿算法(TASNA),用于项目反应理论框架下的大规模在线反应数据参数估计。TASNA结合了增量更新机制、高效随机优化策略和理论可靠性,能够在新数据到达时动态更新项目和能力参数,为智能教育系统提供了强大的技术支持。理论分析证明了算法的几乎必然收敛和渐近正态性。模拟和实证研究验证了其有效性。TASNA不仅在在线实时估计中表现优异,在离线处理大规模数据时,其计算效率也显著高于传统EM算法,是一个强有力的替代方案。
研究也指出了若干局限性,如小样本表现、参数敏感性、高维潜在特质处理的计算挑战,以及数值积分误差的影响。未来研究方向包括探索其他积分近似方法、扩展至多级评分模型、平衡计算效率与理论精度,以及在实际应用场景(如计算机化自适应测试中的在线项目标定、项目自适应学习系统中的实时参数估计)中的进一步验证和推广。总体而言,该研究推动了教育测量超越传统离线分析,迈向实时分析,促进了IRT理论的现代化和进一步发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号