综述:选择抑郁研究测量工具:对五种常用自评量表的批判性考察

《Journal of Affective Disorders》:Selecting a depression measure for research: A critical examination of five common self-report scales

【字体: 时间:2025年10月28日 来源:Journal of Affective Disorders 4.9

编辑推荐:

  本综述系统批判性评估了贝克抑郁量表(BDI)、流调中心抑郁量表(CES-D)、医院焦虑抑郁量表(HADS)、患者健康问卷(PHQ-9)和患者报告结局测量信息系统抑郁量表(PROMIS-D)五种常用自评工具。基于COSMIN标准发现,PROMIS-D在理论基础和心理测量特性上表现最优(各项评级“良好”/“可接受”),而HADS整体评级最低。研究强调选择抑郁测量工具需考量理论根基、跨文化效度和人群适用性,避免加剧健康不平等。推荐使用PROMIS-D等现代工具以精准捕捉抑郁多维特征。

  
引言
抑郁是科学领域最常测量的构念之一,其全球患病率估计达3.22亿人(4.4%)。在美国,根据定义和测量方式的不同,抑郁影响着8–18%的成人。抑郁常与癌症、糖尿病、HIV等疾病共存,其非特异性症状使得评估变得复杂。共病抑郁与这些人群的不良预后相关,促进了跨学科对抑郁的关注。目前已有超过280种抑郁测量工具,选择合适的工具对临床医生和研究人员构成挑战。自评量表因其广泛吸引力而被常用,但由于抑郁是一种基于症状的障碍,且目前缺乏客观的生物标志物支持诊断,因此 meticulous 选择至关重要。测量误差的影响包括在存在医学共病时导致分数膨胀,以及如果在未被充分研究的群体中遗漏了与文化交织的症状,则可能加剧健康不平等。
心理健康护理长期以来是一种问题导向的实践。这些问题范围很广,从导致社会隔离的偏执妄想到干扰就业的物质使用,再到限制有意义关系的社会恐惧症。因此,早期临床精神病学和心理学的范围被广泛概念化为“生活问题”。后来,经过最初的抵抗,这些问题被概念化为“症状”,这个术语暗示了“疾病”的存在。然而,“疾病”意味着已知的病因,因此对于病因尚不清楚的共现症状群,“障碍”是更合适的标签。
到二十世纪中叶,大多数精神病学实践的特点是通过非结构化访谈和叙述性描述来定义问题或诊断。诊断访谈被批评为高度主观,临床医生间缺乏一致性导致了诊断标准的制定。到1980年,在第三方保险公司、美国国立卫生研究院(NIH)、美国食品和药物管理局(FDA)和医学院的外部压力下,《精神障碍诊断与统计手册》第三版(DSM-III)标志着从基于理论的临床实践向手册化定义精神障碍的关键转变,这看起来更精确且与其他医学分支更一致。DSM-III的标准和决策规则旨在确定精神障碍的存在与否,包括重性抑郁障碍(MDD),确立了谁应该或不应该接受诊断。
与此同时,与旨在分类检测MDD的清单相反,一些临床医生施测和自评量表被开发出来用于评估抑郁症状的严重程度。这些量表所测量症状的变异性源于对抑郁的不同概念化,例如贝克抑郁量表(BDI)强调贝克的抑郁认知三联征——对自我、世界和未来的消极看法。尽管早期和后来的量表(包括BDI、流调中心抑郁量表(CES-D)、医院焦虑抑郁量表(HADS)和患者健康问卷(PHQ-9))评估的症状各不相同,但它们共享一种通过简单相加症状来量化抑郁严重程度的共同方法。值得注意的是,这些诊断标准和测量工具是基于对主要是西方和白人、且其他方面普遍健康的人群的研究和临床经验开发的。
到二十世纪末,出现了一个与DSM-III分类诊断标准相反的惊人逆转,因为该领域开始认识到精神障碍,特别是抑郁,是维度的和重叠的,而非分类的和离散的。这反映在DSM-V中,它用维度连续体取代了分类诊断,将心理健康问题概念化为从轻微到严重的谱系。尽管如此,分类方法(即区分抑郁与非抑郁)在研究和实践中仍然是常态。目前,抑郁被认为是一种多维状况,其特征跨越情感、认知、躯体和社会人际领域。如表1所示,MDD的诊断表明这些特征或症状几乎每天出现,持续至少两周。当症状导致显著损害但不符合MDD的全部标准时,使用未特定的抑郁障碍或其他特定抑郁障碍的诊断。考虑到抑郁概念化的演变、心理测量学的进步、种族和民族多样性的增加以及过去半个世纪美国人口中慢性病的流行,抑郁测量在很大程度上保持五十年前的状态值得仔细审视。
比较不同抑郁测量工具零散方面的学术研究跨越数十年。这些研究大多关注测量的可行性,如参与者负担和评分便利性,或特定群体的信度指标和筛查。其他研究在跨心理测量特性方面的综述相当全面,但范围局限于特定的临床(例如头颈癌、睾丸癌、糖尿病)或生命阶段(例如青少年、产后)人群。广泛比较成人多种测量的研究很少,并且通常局限于一个或两个心理测量特性,或者将临床医生施测和患者报告测量混在一起。此外,除了选定的临床人群外,比较抑郁测量在不同性别、种族或民族间差异性能的文献很少,或者相关地,关于抑郁概念化如何影响所评估症状的文献也很少。这一差距是一个重要关切,因为如果未能捕捉与文化相关的抑郁表达且未检验测量不变性,工具的选择可能会加剧健康不平等。为了解决这些差距,我们旨在对跨越五个十年的自评抑郁测量进行稳健的批判性评估,整体系统地评估每个测量的心理测量特性,并综合为跨多样成人人群选择和应用测量的关键考量。
方法
我们选择了BDI、CES-D、HADS、PHQ-9和患者报告结局测量信息系统抑郁量表(PROMIS-D)进行综述,因为这些测量是成人中最常用的自评抑郁测量工具,特别是在患有或有慢性病风险的人群中。此外,这五个来自五个不同十年的量表使我们有机会绘制抑郁概念化的演变图谱。
描述与量表开发
每个测量的开发目的、项目内容和内容来源报告存在显著差异。如表2和表3所示,项目数量、回忆期、评分和评估的具体症状存在显著差异。图1显示了每个测量每个心理测量特性的COSMIN等级。
讨论
跨COSMIN特性,PROMIS-D整体表现出最高评级。相比之下,HADS是表现最差的测量,但应注意其拥有两个不同维度的优势。BDI、CES-D和PHQ-9在COSMIN特性上的表现差异很大,它们在研究中的适用性可能高度依赖于研究问题与测量原始目的(如干预反应性、筛查或严重程度评估)之间的匹配,以及研究人群的特征。
结论
抑郁是一个在过去一个世纪中演变显著的概念,其测量应反映这种演变。作为一种状况,抑郁是多维的,但如果我们希望解开抑郁的异质性或更好地理解其影响,就不能继续仅仅对这些维度的症状进行求和。必须采用理论基础扎实、严格开发的工具来理解和解决抑郁这一复杂问题。“测量什么,就管理什么”的原则适用于此:如果我们继续使用理论依据薄弱、心理测量特性可疑或在不同人群中不等价的工具,我们对抑郁的理解将仍然有限且可能不准确。未来的研究应优先测试测量跨种族和民族的跨文化效度,以促进所有人的健康。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号