编辑推荐:
在学校开展的集群随机试验(CRT)中,确定合适的组内相关系数(ICC)对样本量计算至关重要。研究人员分析英国五项研究数据,发现不同层面 ICC 有差异,且受报告者和结果类型影响。这为后续研究样本量计算提供关键参考。
在当今社会,青少年的心理健康问题日益受到关注。大约一半的成人精神障碍在青春期就已初现端倪,这使得提升儿童和青少年的社会情感功能(Social-emotional functioning,指理解、体验、表达和管理情绪,以及与他人建立有意义关系的能力)成为公共卫生领域的重要任务。学校作为青少年成长的关键场所,在促进其社会情感健康方面发挥着不可或缺的作用,因此,基于学校的干预措施评估变得尤为重要。
集群随机试验(Cluster Randomised Trial,CRT)是评估学校干预措施效果的常用方法。在 CRT 中,整个参与者群体(如学校、年级、班级等)被随机分配到不同试验组,然后对个体参与者的结果进行测量。然而,CRT 存在一个关键问题:同一集群内参与者的反应往往比不同集群间更相似,这种相似性用组内相关系数(Intra-cluster Correlation Coefficient,ICC)来衡量。ICC 对样本量计算至关重要,因为它直接影响设计效应(Design Effect,DE),进而决定研究所需的参与者数量。但目前在计算样本量时,合适的 ICC 值难以确定。一方面,已有研究中假定的 ICC 值与实际估计值常常差异较大;另一方面,许多研究未报告 ICC 估计值,且现有文献中 ICC 值范围过宽,无法为样本量计算提供有效参考。此外,在学校场景下,CRT 的设计涉及不同层次的集群随机化(如学校、年级、班级),且结果报告者多样(学生、家长、教师),这些因素都会影响 ICC 值,而人们对这些影响因素的了解还十分有限。
为了解决这些问题,来自英国的研究人员(包括 Kitty Parker、Michael Nunns 等)开展了一项重要研究。他们利用英国五项已发表的基于学校的 CRT 原始数据,对学生社会情感功能结果的 ICC 和方差成分进行了估计和分析。该研究成果发表在《BMC Medical Research Methodology》上,为后续相关研究提供了关键的参考依据。
研究人员运用了混合效应(“multilevel”)线性回归模型这一关键技术方法。对于不同研究,根据其聚类层次的不同,分别采用了 2 - 4 级混合效应模型。如 STARS 研究只有学校层面的聚类,采用 2 级模型;KiVa、PACES 和 MYRIAD 研究有学校和教室两个层面的聚类,采用 3 级模型;PROMISE 研究有学校、年级和教室三个层面的聚类,则采用 4 级模型。通过这些模型,研究人员估计了不同层面的方差成分和 ICC。同时,研究数据来自五项已发表的学校 CRT 研究,这些研究涉及不同地区、不同教育阶段的学校,涵盖了多种干预措施和社会情感功能测量指标。
下面来看具体的研究结果:
- 总体 ICC 分布:研究共估计了 529 个 ICC,涵盖学校、年级、教室等不同层面。整体上,学校和年级层面的中位数 ICC 相似(分别为 0.0155 和 0.015),教室层面略高(0.019)。其中,STARS 研究中 “学校层面”(因只从每所学校抽取一个教室,该层面 ICC 反映学校和教室层面的综合变异)的中位数 ICC 显著更高(0.068)。从报告者类型来看,学生报告结果的 ICC 大多小于 0.04(中位数(90% 范围):0.016(0 - 0.05)),家长报告结果的 ICC 大多小于 0.035(中位数(90% 范围):0.0035(0 - 0.045)),而教师报告结果的 ICC 则较大,可达 0.25(中位数(90% 范围):0.092(0.023 - 0.202))。此外,小学和中学环境中的中位数 ICC 相似(分别为 0.017 和 0.018)。
- 各研究具体结果
- STARS 研究:由于每所随机学校仅抽取一个教室,无法区分学校和教室层面的变异。教师报告的 SDQ 总分及子量表得分的 ICC(0.053 - 0.251)显著高于家长报告的相应指标(0 - 0.049)。这可能是因为教师为所在学校的所有学生填写 SDQ,而家长仅为自己孩子报告。同时,教师报告的 SDQ 子量表中,外化行为(如行为问题和多动)的 ICC(中位数 = 0.085)低于内化行为(如情绪和同伴问题)(中位数 = 0.134)和亲社会行为(中位数 = 0.213)。学生报告的 “How I Feel About My School” 测量指标的 ICC(0.052 - 0.111)较高,可能是因为该概念反映了学生对学校的共同体验。
- KiVa 研究:学校层面 ICC 范围为 0.005 - 0.092,教室层面为 < 0.001 - 0.206。与 STARS 研究不同,KiVa 从每所学校抽取多个教室,能分别估计学校和教室层面的方差成分,这使得其教师报告的 SDQ 子量表的学校层面 ICC 明显小于 STARS 研究。
- PACES 研究:学校层面 ICC 通常很低,有多个为零。教室层面上,学生报告的 RCADS - 30 的 ICC(中位数 = 0.029)明显高于家长报告的(中位数 = 0)。
- PROMISE 研究:学校层面 ICC 范围为 0 - 0.016(中位数 = 0.005),年级层面为 0.002 - 0.069(中位数 = 0.015),教室层面为 0.011 - 0.035(中位数 = 0.0215)。该研究中,较小自然规模的集群(如教室)通常具有较大的 ICC 值。此外,中学环境下学生报告的 30 项修订儿童焦虑和抑郁量表(RCADS - 30)的学校和教室层面 ICC 与小学的 PACES 研究中的相应指标大小相似。
- MYRIAD 研究:教师报告的 Strengths and Difficulties Questionnaire 的 ICC 明显大于学生报告的,尤其是在教室层面。对于学生报告的结果,学校层面的 ICC 在 MYRIAD 研究中(如 RCADS 的学校层面 ICC 中位数(范围) = 0.0245(0.016 - 0.040))大于 PROMISE 研究(中位数(范围) = 0.005(0 - 0.014)),而教室层面则相反。这表明在中学,学校层面因素可能比教室层面因素对学生结果的影响更大。另外,学生报告的学校气候结果的 ICC(学校层面 ICC 范围为 0.032 - 0.072)明显大于其他学生报告的结果。
研究结论和讨论部分强调了这些发现的重要意义。首先,研究表明在计算计划中的 CRT 样本量时,必须考虑不同层面方差成分大小的影响。教室层面聚类的 ICC 往往大于学校层面,但 MYRIAD 试验是个例外,这可能与该试验招募的学校地理范围广、学校类型多样有关。其次,研究设计会对 ICC 产生影响,如 STARS 和 KiVa 研究的对比所示,在使用先前研究的学校层面 ICC 估计值规划新试验时,需注意每所学校抽取的教室数量。再者,由于教师通常为多个学生报告结果,教师报告结果的 ICC 可能明显大于学生和家长报告的结果,且不同报告者对同一结果的 ICC 估计差异可能源于其主观评价视角的不同。此外,研究还发现 ICC 受结果类型影响,如教师报告的 SDQ 中,亲社会行为子量表的 ICC 通常最大;学校气候相关结果的 ICC 大于学生心理健康相关结果,这可能是因为学校气候更直接受学校环境影响。
总的来说,该研究为基于学校的 CRT 样本量计算提供了重要的 ICC 估计值参考范围。对于学生和家长报告结果的研究,学校和教室层面 ICC 的实用上限分别为 0.04 和 0.035,但学生报告的学校气候或学校体验相关测量指标除外,其 ICC 可达 0.1。教师报告结果的 ICC 在学校层面可达 0.1,教室层面可达 0.2;在仅从每所学校抽取一个教室的 CRT 中,教师报告结果的名义学校层面 ICC 可达 0.25。这些结果有助于研究人员在未来设计基于学校的 CRT 时,更准确地计算样本量,提高研究效率和准确性,为改善学生社会情感功能的干预措施评估提供更坚实的基础,推动该领域研究的进一步发展。