在酒精研究中使用项目反应理论模型对严重程度分数进行量化——教程

《Drug and Alcohol Review》:Using Item Response Theory Models in Scaling Severity Scores in Alcohol Research—A Tutorial

【字体: 时间:2025年10月28日 来源:Drug and Alcohol Review 2.6

编辑推荐:

  酒精和药物依赖评估中,传统总和分数存在假设不成立的问题。本文基于丹麦2011年酒精和药物消费调查数据,采用项目反应理论(IRT)模型(包括Rasch、部分信用和二参数逻辑模型)分析8项危害他人饮酒行为量表。研究发现Rasch模型拟合不佳,PC和2PL模型更适合处理多类别响应和不同难度权重。通过测量不变性分析,青少年与成年组在部分项目难度和区分度上存在差异,采用IRT模型后组间差异系数(d)从0.25提升至0.43。最后提供R/STATA代码实现,验证了IRT在处理测量误差和提升可靠性方面的优势。

  在当前的研究中,我们探讨了如何利用心理测量学中的项目反应理论(Item Response Theory, IRT)来改进问卷数据的评分方法,尤其是在评估酒精和药物依赖问题时。传统的做法是使用简单的总分(sum score)来汇总问卷结果,这种方法虽然操作简便,但往往忽略了重要的心理测量学假设,从而可能导致对真实情况的误解。通过引入IRT模型,我们可以更精确地评估个体在潜在特质上的表现,同时考虑到不同项目对总体评估的贡献程度以及测量误差的影响。

传统的总分计算方法假设所有项目对潜在特质(latent trait)的测量具有相同的权重和效度。也就是说,每个问题对总分的影响是相同的,无论其内容或严重程度如何。然而,这种方法忽略了某些项目可能比其他项目更能反映潜在特质的实际情况。例如,在评估酒精对他人造成的影响(Alcohol Harms to Others, AHTO)时,一些项目可能代表更为严重的事件,而另一些可能只是轻微的困扰。在这种情况下,如果所有项目都被赋予相同的权重,那么总分将无法准确反映个体所经历的酒精相关问题的严重程度。

此外,总分方法假设测量过程中不存在误差。但实际上,由于受访者可能误解问题、社会期望影响回答,或者只是偶然选择某个选项,这些误差都会被包含在总分中。这不仅会增加总分的方差,还可能掩盖真实存在的群体差异或关联。IRT模型则能够通过数学建模的方式,将测量误差纳入考虑,从而提供更可靠的评分结果。IRT模型的核心在于它对潜在特质和项目特征之间的关系进行建模,使得评分不仅能够反映个体的真实水平,还能评估项目在测量潜在特质上的有效性。

在本研究中,我们使用了丹麦2011年全国酒精和药物消费调查中的AHTO数据集,该数据集包含8个项目,询问受访者在过去一年中是否经历过因他人饮酒而导致的各种问题。这些项目包括“被醉酒的人吵醒”、“在街头或公共场所被骚扰”、“被醉酒的人辱骂”等。通过IRT模型,我们可以更细致地分析这些项目的特征,如项目的难度(item difficulty)和区分度(item discrimination),并据此对个体的潜在特质进行更准确的估计。

我们首先应用了Rasch模型,这是一种最简单的IRT模型,适用于二分类数据。Rasch模型假定所有项目测量的是同一个潜在特质,并且每个项目的区分度是相同的。通过分析模型拟合指标,我们发现Rasch模型在本数据集上表现不佳,表明该模型的假设并不完全符合数据的实际情况。因此,我们进一步尝试了其他更复杂的IRT模型,如部分信用模型(Partial Credit Model, PC)和两参数逻辑模型(Two-Parameter Logistic Model, 2PL)。这些模型允许项目之间的区分度不同,从而更真实地反映个体在潜在特质上的差异。

在分析这些模型时,我们发现PC模型在拟合度上优于Rasch模型,因为它能够处理多分类数据,并允许项目在不同层次上表现出不同的难度。2PL模型则进一步引入了区分度参数,使得不同项目的贡献能够被更精确地量化。通过比较不同模型的拟合指标,如根均方误差(RMSEA)、比较拟合指数(CFI)和标准根均方残差(SRMSR),我们能够判断哪种模型更适合当前的数据结构。

除了模型选择,我们还关注了测量不变性(measurement invariance, MI)问题,即不同群体在回答同一项目时是否具有相同的难度和区分度。例如,在比较青少年和年轻成年人的AHTO评分时,我们发现部分项目在不同群体中表现出不同的难度水平,这可能意味着测量工具在不同群体中并不完全等效。通过逐步放松MI的假设,我们能够识别出哪些项目在不同群体中具有不同的表现,并据此调整模型。最终,我们发现弱测量不变性模型(仅允许区分度相同)在拟合度上表现良好,而强测量不变性模型(区分度和难度均相同)则不能被接受。

为了进一步探索群体间的差异,我们还应用了IRT树(IRT Trees)方法,这是一种基于决策树的分析技术,可以自动识别在不同群体中表现不同的项目。通过分析性别和年龄之间的差异,我们发现某些项目在特定年龄组或性别中表现出不同的难度。例如,某些项目在22岁以上的女性中较少被回答,而在更年轻或年长的女性中则更为常见。这些发现表明,群体间的差异可能不仅仅源于潜在特质的差异,还可能受到社会、文化或认知因素的影响。

通过这些分析,我们发现IRT模型在评估潜在特质和群体差异方面具有显著优势。它不仅能够提供更准确的个体评分,还能揭示项目在不同群体中的测量特性,从而帮助研究人员更好地理解数据的结构和潜在偏差。此外,IRT模型的灵活性使其能够适应各种数据类型和研究需求,为心理测量学和问卷设计提供了新的思路。

在实际应用中,IRT模型的使用可以帮助研究人员识别和修正测量工具中的问题,提高研究结果的可靠性和有效性。通过模型拟合和参数估计,我们可以更精确地评估个体的潜在特质水平,并在不同群体之间进行有意义的比较。同时,IRT模型还能够揭示哪些项目在不同群体中具有不同的表现,从而指导后续的问卷改进和数据分析。

综上所述,IRT模型为心理测量学和问卷数据分析提供了一种更为科学和灵活的方法。它不仅能够测试和放松传统的总分假设,还能通过参数估计和模型拟合,提供更可靠的评分结果。在本研究中,我们展示了如何应用IRT模型来分析AHTO数据,并通过不同的模型比较和测量不变性分析,揭示了群体间差异的潜在原因。这些方法可以为其他领域的问卷研究提供参考,帮助研究人员更准确地评估潜在特质,并减少由于测量工具不一致而导致的偏差。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号