《Autism Research》:An Examination of Racial Bias in Scoring the Autism Diagnostic Observation Schedule (ADOS) Module 3: An Item Response Theory Analysis
编辑推荐:
本文通过项目反应理论(IRT)和微分项目功能(DIF)分析,首次系统评估了自闭症诊断观察量表(ADOS)模块3在亚裔、非裔/非裔美国人与白人儿童间的评分偏倚。研究发现三个非算法项目存在轻微但可检测的种族偏倚,但对诊断分类无临床显著影响,为提升自闭症诊断工具的公平性提供了量化依据。
ABSTRACT
本研究针对美国少数族裔儿童自闭症患病率上升但服务使用差异持续存在的现状,聚焦自闭症评估"金标准"——自闭症诊断观察量表(ADOS)的潜在评分偏倚。通过对735名儿童样本采用单维项目反应理论(IRT)分级反应模型,分析ADOS模块3中项目的微分项目功能(DIF)。结果显示:A1(整体语言水平)、A5(主动提供信息)和D5(强迫行为与仪式)三个项目存在显著种族偏倚,非裔/非裔美国人和亚裔儿童更易被评定为呈现自闭症行为。但偏倚对总分影响微弱(0-48分量表中分别增加0.23和0.16分),且均不涉及诊断分类算法项目,表明偏倚具有统计学意义而非临床意义。
1 Introduction
2020年美国首次出现非裔/非裔美国人和亚裔儿童自闭症患病率超越白人儿童的现象,但医疗 disparities 持续存在。非裔儿童诊断年龄较中位年龄延迟约15个月,导致早期干预滞后27个月。亚裔儿童在相关研究中关注不足,且获得职业治疗/言语治疗概率更低。ADOS作为诊断核心工具,其 clinician-rated 特性可能存在偏倚风险。
1.1 Autism Diagnostic Observation Schedule (ADOS)
ADOS模块3适用于4-15岁言语流畅儿童,通过半结构化游戏互动评估自闭症相关行为,由训练有素的临床医生评分。虽需达到80%评分者一致性,但文化因素可能影响"异常行为"判定标准。算法分数仅包含部分项目用于分类,但临床诊断会综合所有项目信息。
1.2 Review of Bias in ADOS Scoring
既往两项DIF研究结论相悖:Harrison等发现非裔儿童在重复刻板行为领域被高估,Kalb等则报道临床环境中8个项目存在偏倚(方向相反)。两项研究均未涵盖非算法项目及亚裔人群。
1.3 Objectives
本研究首次全面分析模块3全部24个项目,并纳入亚裔儿童群体,旨在揭示不同种族在ADOS评分中的差异功能。
2 Method
2.1 Participants
纳入费城儿童医院自闭症研究中心2009-2024年14项研究的735名5-19岁参与者(白人625人、非裔87人、亚裔21人),所有ADOS评估由持证心理学家主导。合并ADOS/ADOS-2数据并采用现行算法重新评分。
2.2 Measures
2.2.1 Autism Diagnostic Observation Schedule (ADOS) Module 3
模块3包含29个项目评估五大行为领域,本研究聚焦语言沟通、社交互动、刻板行为三个领域的24个项目。项目评分遵循0(正常)-2(明确异常)标准。
2.2.2 Additional Measures
同步采集智力测验(DAS-II/WASI-II/WISC-IV)、社交沟通问卷(SCQ)和社交反应量表(SRS-2)数据。
2.3 Analysis
2.3.1 Item Selection and Scoring
排除B8项目后分析24个项目,B1眼接触项目按惯例二分法评分。
2.3.2 Model Selection
通过比较单维/三维模型拟合指数(M2、RMSEA、TLI、CFI),选择单维模型进行DIF分析。
2.3.3 Differential Item Functioning Analysis
采用多组模型和"所有其他项目为锚"法检测DIF,计算项目区分度(a)、难度参数(b1/b2)。通过符号项目差异(SIDS)、无符号项目差异(UIDS)和期望标准化分数差异(ESSD)评估效应大小。
2.3.3.2 Test-Level Effect Size Calculation and Interpretation
使用无符号期望测验分数差异(UETSDS)评估DIF对总分影响,采用1000次bootstrap计算标准误。
2.3.3.3 Uniform and Nonuniform DIF
均匀DIF表现为组间差异在所有自闭症潜质水平一致,非均匀DIF则与潜质水平相关。
2.3.4 Power Analysis
事后蒙特卡洛模拟显示白人-非裔比较检验力充足(1-β=0.81),但亚裔样本检验力不足。
3 Results
3.1 Sample Characteristics
非裔组在SRS-2、SCQ的RRB维度得分显著低于白人组,亚裔组无显著差异。ADOS诊断灵敏度0.894、特异度0.817,与常模一致。
3.2 Model Dimensionality
单维模型与三维协方差模型拟合度相当(RMSEA=0.085 vs 0.081),选择单维模型保证检验力。
3.3 Differential Item Functioning
三个项目显示显著DIF(p<0.05):
- •
A1(语言水平):非裔/亚裔儿童更易获低分(低语言水平评级),效应量ESSD分别为0.844/0.625
- •
A5(提供信息):非裔儿童普遍被高评(非均匀DIF),亚裔儿童高分缺失
- •
D5(仪式行为):非裔组呈均匀DIF(低分倾向),亚裔组为非均匀DIF
3.4 Test-Level Effect of Differential Item Functioning
DIF项目均非算法项目,对分类无影响。假设24项目总分(0-48)中,非裔/亚裔组仅分别提高0.226/0.157分。
3.5 Power Analysis
亚裔组检验力不足可能遗漏潜在DIF项目。
4 Discussion
DIF机制可能源于文化差异(如语言语法评判标准)或临床医生文化透镜。项目参数差异提示:A1和D5对少数族裔鉴别力更优,A5对亚裔鉴别力较弱。虽当前偏倚影响微弱,但为数字化诊断工具开发提供了种族公平性参数优化依据。
4.1 Limitations
亚裔样本量小、数据跨15年采集、版本差异可能影响结果稳定性。
4.2 Conclusions
首次证实ADOS模块3存在局限于非算法项目的种族偏倚,对诊断决策无实质影响。建议在更大样本中验证结果,并探索 clinician demographics 对评分的影响机制。