基于Rasch分析推导问卷序数评分最小可检测变化值(MDCord)以提升单被试变化评估

【字体: 时间:2025年09月25日 来源:Disability and Rehabilitation 2

编辑推荐:

  本综述创新性地提出从Rasch分析(RA)区间测量指标的MDC(MDCint)推导问卷序数评分最小可检测变化值(MDCord)的四种方法(A1、A2、B1、B2),成功将RA的稳健测量特性与序数评分的简便性相结合,为Fugl-Meyer上肢评定量表(FMA-UL)和上肢功能评估测试(FAST-UL)提供了经计量学验证的临床变化判据,有效解决了单被试层面变化评估的精确性与可操作性的矛盾。

  

引言:单被试变化评估的挑战与机遇

在康复医学领域,无论是研究场景还是日常临床实践,评估单个患者是否发生变化始终是一个核心议题。对于卒中后偏瘫、脊髓损伤所致截瘫等慢性疾病,以及帕金森病等进展性疾病,临床医生既需要判断患者是否随时间推移而恶化,也需要评估治疗结束后患者是否得到改善。

最小可检测变化(Minimal Detectable Change, MDC)是指测量值或问卷总评分中超出测量误差的最小变化量。最常报告的是95% MDC。这意味着,当单个患者的两次测量值变化达到或超过95% MDC时,临床医生可以有95%的置信度(p ≤ 0.05)认为该变化反映了统计学上的显著改变。这里的“统计学显著”与假设检验中的含义相同,应用MDC实质上就是在对单个个体的成对测量值进行假设检验。

然而,问卷总评分的MDC(MDCord)源于序数评分,因此它继承了序数评分固有的缺陷。最关键的是,尽管在经典测验理论(Classical Test Theory, CTT)中,序数评分被当作测量值处理,并假设其与潜在构念之间存在线性关系,但序数评分本身并非真正的测量值,至多只是测量值的近似。

与此形成对比的是,利用Rasch分析(Rasch Analysis, RA)可以从问卷中提取出区间测量值。RA如今可被视为一个涵盖多种统计技术的总称,其核心是单参数逻辑斯蒂模型。RA的区间测量值与序数评分之间存在一个关键区别:在RA框架内,问卷的序数评分被视为获得测量值的必要前提,而非测量值本身。在这个心理计量学框架下,只要某些核心假设得到验证,就可以从评分中提取出区间测量值(即类似于体温和血压类型的测量值)。如果假设不成立,所获得的测量值就不可靠,因此常常被舍弃。因此,与CTT不同,RA是一个可证伪的测量理论。

RA进入医学领域,特别是康复医学,已有至少30年历史。RA心理计量学家通常提供一系列理由来说明为何RA的测量值和指标优于CTT的序数评分和指标。然而,事实上,RA难以进入临床实践甚至临床研究。总序数评分和CTT指标仍然更受青睐,RA测量值从测量理论到测量实践的转化存在明显不足。使用MDCord评估单个个体的变化就是其中一个实例。

RA同样可以用于凸显成对测量值(例如从单个个体收集的连续测量值)之间的显著差异。实际上,RA区间测量值附带了一个测量误差估计值,允许计算出一个MDC(MDCint)。与问卷评分的MDC(即MDCord)定义一致,MDCint是问卷区间测量值中超出测量误差的最小变化。

此外,在RA中,分层统计(strata statistic)也评估了问卷在单被试水平检测变化的能力。更准确地说,分层数量通常随问卷的RA一起提供,它表示在单被试水平上能够用问卷区分出的统计上不同的测量值水平的数量。

然而,分层有助于评估问卷的功能,但与MDC不同,它在评估从单个个体收集的测量值方面没有实际用途。而且,虽然MDCint的计算相对简单,可以用电子表格完成,但其计算过程不如MDCord直接了当。

如果RA测量值以及因此而来的MDCint更可取(正如理论和实证证据所表明的),而评分和MDCord因其简单性和直接性更适用,那么一个解决方案可能是通过将其锚定在RA测量值上来计算MDCord

从MDCint推导出MDCord将产生一个作为更高级RA指标代理的MDCord,并有望受益于RA测量值的稳健性。本研究旨在发展这一理念。

材料与方法:构建理论与实践的桥梁

本研究基于已发表研究的数据进行深入探讨。具体而言,使用了Fugl-Meyer上肢评定量表(Fugl-Meyer Assessment-Upper Limb, FMA-UL)和上肢功能评估测试(Functional Assessment Test for Upper Limb, FAST-UL)的Rasch分析得分-测量转换图(score-to-measure conversion maps)。此外,还进行了模拟分析,这些模拟同样始于其他地方报告的数据。因此,没有为这项工作专门招募参与者。

得分-测量转换图是一种通常以表格形式提供的工具,用于将问卷得分转换为测量值。更准确地说,它为每个问卷的总(序数)得分提供了相应的(区间)测量值及其标准误(Standard Error, SE)。测量值和SE以logit为测量单位,RA测量值的SE对应于CTT的标准测量误差(standard error of the measurement, SEM)。

本研究评估了两种中枢性麻痹(皮质脊髓束受损所致)上肢灵活性的测量工具:FMA-UL和FAST-UL。这两种问卷均已成功使用Rasch分析进行了验证。

Fugl-Meyer评估-上肢部分(FMA-UL)最初是在一系列偏瘫患者基础上开发的。上肢部分的项目采用三级评分(0到2分,分数越高表示表现越好),评估完成一系列上肢运动的能力。本研究剔除了三项评估腱反射的项目,因为尽管相关,但腱反射的过度兴奋性和自主运动代表了两个不同的构念。因此,本研究评估的FMA-UL总分范围是0到60分。FMA-UL的得分-测量转换图是根据先前研究中提供的项目校准构建的。

上肢功能评估测试(FAST-UL)是一种新型问卷,用于测量上肢灵活性,与FMA-UL一样,最初也是在卒中患者基础上开发的。它包含5个项目,每个项目采用四级评分,从0到3分,总分范围从0到15分。这些项目评估了临床检查中枢性上肢麻痹的五个基本任务。

本研究提出了从Rasch分析框架内推导问卷总评分MDC(即MDCord)的方法。MDCord是问卷总评分中超出测量误差的最小变化。这里的新颖之处在于,用于MDCord计算的测量误差估计来源于RA指标。

本研究提出了以下在Rasch分析框架内推导MDCord的方法:

  1. 1.

    基于敏感性和特异性分析的准确度方法(A方法),根据所使用的数据源不同分为:

    • 使用得分-测量转换图中的测量值(A1方法)

    • 使用模拟参与者样本中的个体测量值(A2方法)

  2. 2.

    基于分层的方法(B方法),包括:

    • 修正的B1方法

    • B2方法

简而言之,在Rasch分析框架中,借助SE的可用性,可以检验任何两个测量值(MA和MB)在p < 0.05水平上是否显著差异。若测量值之差大于或等于1.96乘以两者SE平方和的平方根(即MDCint),则可判定为存在显著差异。若SEA和SEB相同(例如考虑测量值SE的均方根SERMS),则公式可简化为1.96 * √2 * SERMS,通常进一步简化为3 * SERMS

A1方法测试得分-测量转换图中每一对可能的测量值,并根据MDCint将每对分类为“显著不同”或“无差异”。接着,将MDCord定义为其诊断准确性(用于检测MDCint定义的显著变化)满足阳性似然比(LR+)> 10且阴性似然比(LR-)< 0.1标准的最小序数得分增量。

A2方法使用模拟来生成一组患者治疗前和治疗后的测量值。在这些模拟中,治疗平均能有效改善上肢灵活性。首先,根据MDCint将模拟参与者分类为“改善”或“未改善”。然后,与A1方法类似,使用似然比来识别能最准确检测“改善”参与者的FMA-UL和FAST-UL得分差异。我们将这个最佳得分差异定义为MDCord

B2和B1方法由Benjamin Wright推广。为了推导MDCord,这两种方法都依赖于H,即问卷的分层数量。给定一个测量值MA,以MA开始的分层是测量值范围[MA, MA + MDCint)。此范围内的测量值无显著差异,因此代表一个统计上等效的表现水平。而一个测量值 ≥ (MA + MDCint) 则与MA显著不同。点MA + MDCint标志着一个新分层的开始,依次位于第一个分层之后。实际上,这意味着只有当一个人的测量值从一个“跳跃”到下一个时,才发生真实的、可检测的能力变化。

计算分层数H时,B1方法使用分离指数G,公式为H = (4 * G + 1) / 3。该方法计算在潜在变量特定区间内拟合的分层数量。修正的B1方法将公式中的4 * SD范围替换为得分-测量转换图中测量值的范围。

B2方法是一个迭代过程。它沿着潜在变量依次放置长度为1 MDCint(以logit为单位)的分层,跨越得分-测量转换图的整个范围。此过程对转换图中的每个测量值(作为唯一起始点)重复进行。最终,将所得分层数量分布的中位数定义为H,即问卷的最终分层数。

一旦获得分层数H,即可用以下公式估算MDCord:MDCord = ? (TSMAX - TSmin) / H ?,其中TSMAX和TSmin分别是问卷的最大和最小总分,??符号代表向上取整函数(即向上舍入到最接近的整数)。该公式背后的逻辑是:Rasch模型在区间测量值和序数得分之间建立了一一对应关系。这意味着,无论我们看测量尺度还是得分尺度, distinct表现水平的数量(即分层H)是相同的。因此,该公式计算了单个分层在得分点上的平均长度。它取总得分范围(TSMAX - TSmin)并将其除以适合该范围的分层数(H)。然后将该值向上取整,以产生一个实用的整数值MDCord。这种逻辑是一致的:正如MDCint代表区间测量尺度上一个分层的长度,MDCord代表同一分层在序数得分尺度上的长度。

所有四种方法都阐述了同一个核心思想:利用Rasch分析的标准测量误差(SE)来估算MDCord

结果:方法验证与数值确定

从MDCint推导MDCord:A1方法

此分析首先测试了FMA-UL和FAST-UL得分-测量转换图中任意两个测量值之间的差异是否超过MDCint。该分析的核心是评估FMA-UL和FAST-UL的每一对可能的测量值。对于FMA-UL,测试了1830对差异。对于FAST-UL,测试了120对。

接着,根据A1方法,进行了敏感性和特异性分析,以识别在检测MDCint定义的显著测量值变化方面具有最高准确性的序数得分差异。

对于FMA-UL,总得分差异为8分是满足LR+ > 10(18.3)和LR- < 0.1(0.01)以检测测量值变化的最小差异。因此,根据此分析,从MDCint推导出的MDCord为8。

对于FAST-UL,MDCord为5。然而,需要注意的是,虽然得分差异等于5时LR+ > 10,但其相关的LR-刚好略低于0.1( precisely 0.096)。或者,一个更宽松的MDCord可以是4,其LR- < 0.1(0.02)且LR+为7.73。

从MDCint推导MDCord:A2方法

模拟分析说明了FMA-UL总得分变化与“真实”改善可能性之间的关系。在此背景下,“真实”改善定义为FMA-UL基础测量值的变化超过MDCint。时间点概念化为旨在改善卒中患者上肢灵活性的治疗前后。

当平均改善为0.75 logits时,1000名参与者样本中有12.4%的参与者其FMA-UL测量值变化超过了MDCint(1000次模拟重复的中位数;2.5-97.5百分位数:10.4-14.4%)。在这种0.75 logit平均改善下,发现的MDCord为8分(总分差异),因为8分的FMA-UL总得分差异是满足LR+ > 10(中位数 = 15.3;2.5-97.5百分位数:12.1-20.5)和LR- < 0.1(中位数 = 0.02;0.00-0.05)的最小得分差异。

对于FAST-UL问卷,当平均改善设定为1.80 logits时,根据MDCint,有12.5%的参与者(10.6-14.7%)其测量值发生了显著变化。无法从MDCint的似然比分析中为FAST-UL问卷推导出唯一的MDCord。在这种情况下,LR+大于10的最小总得分差异是5。然而,此得分差异值的LR-远大于0.1(中位数 = 0.31;0.23-0.40)。得分差异为4分是LR-小于0.1(中位数 = 0.00;0.00-0.012)且最接近5分的得分差异。然而,该得分差异的LR+值不令人满意(中位数 = 3.64;3.29-4.06)。

从分层数推导MDCord:B方法

根据修正的B1方法,当将FMA-UL得分-测量转换图的测量值范围输入公式时,H为8.36,该值产生8的MDCord。对于FAST-UL,修正的B1方法得出的分层数为4.29,相应的MDCord为4。

使用B2方法构建FMA-UL分层图。该分析展示了三个具有代表性的分层图示例,分别起始于测量值-6.74(得分=0)、-1.21(得分=20)和1.22 logits(得分=40)。每个图都说明了分层如何沿上肢灵活性的潜在变量依次放置。每个分层的长度基于MDCint,在本分析中近似为3 * SERMS,相当于1.67 logits。

当为FMA-UL从每个可能的起始测量值(共60个)生成分层图时,分析得出完整分层的中位数为6个(四分位距[IQR]:6-7)。这一6个分层的发现允许计算FMA-UL的固定MDCord。由于测量值和得分之间存在一一映射关系,这6个分层不仅跨越了区间测量值的整个范围,也跨越了序数得分的整个范围(从最小值0到最大值60)。因此,单个分层在得分点上的平均长度可以通过将总得分范围除以分层数来计算。根据此分析,FMA-UL的MDCord为10。

为了提高分层估计的精度,使用每对测量值的精确联合SE重复了分层分析(即应用了B2方法第二次)。这次 refined 分析没有使用平均SERMS来计算单一、恒定的MDCint,而是使用每对特定的联合SE来确定更精确的、针对特定配对MDCint。FMA-UL的这项额外分析显示,在整个量表中可以区分出中位数为7个 distinct 分层(IQR:6-7)。基于此发现,固定MDCord为9个序数点。

FAST-UL问卷的分层分析显示,在两种条件下应用B2方法。首先,使用3 * SERMS近似值,分析得出中位数为3个分层(IQR:2-3)。此分层数对应于5分的固定MDCord。其次,当使用精确联合SE重复分析时,分层数的中位数仍为3(IQR:2.75-3),因此产生相同的5分MDCord

单一与得分特异性(可变)MDCord

本研究目前使用四种不同方法计算了FMA-UL和FAST-UL的MDCord。尽管这些程序不同,但它们理想情况下应产生相同的结果。与基于序数得分的MDC惯例一致,此MDCord是一个单一的固定值,适用于整个量表。

然而,Rasch分析中间隔测量值的SE在整个量表范围内并非恒定;通常在极端处比中心处大。因此,MDCint也不是单一的固定值,而是在量表上变化。

因此,研究当用一个单一的、适用于所有得分的恒定MDCord来近似这个可变的MDCint时,在问卷量表的哪些部分会引入差异是很有意义的。

补充分析报告了对于FMA-UL和FAST-UL的每个测量值,根据配对特异性MDCint确定的第一个显著更大的后续测量值。由于每个区间测量值都有对应的序数得分,此过程允许计算得分特异性MDCord。这个“精确的”且可变的MDCord是起始测量值的序数得分与第一个显著不同测量值的序数得分之间的差异。

分析表明,对于FMA-UL,固定MDCord为8(A方法和修正B1方法得出的值)非常接近绝大多数量表的得分特异性(“可变”)MDCord。最大的差异出现在量表的极端处,最大差异为两个序数点。固定值为10(从A2方法推导出)时,固定MDCord与可变MDCord之间的差异明显更为显著。在这种情况下,固定MDCord在整个量表上显著高估了得分特异性MDCord。这种高估范围从中心得分的一个序数点到量表极端处的多达四个点。

当将此补充分析应用于FAST-UL数据时,这些发现得到复制。在这里,固定MDCord也能很好地近似量表的中心部分,而固定MDCord与可变MDCord之间的差异在极端处最为明显。

讨论:意义、比较与展望

本研究报告了从RA区间测量值的MDC(即MDCint)推导问卷序数得分MDC(即MDCord)的不同方法。作为序数得分,MDCord具有即时使用的优点,并且比MDCint更直接应用。当按照此处详述的方法计算时,MDCord实际上是MDCint的代理,因此受益于源自RA的坚实测量框架。

本研究分析了两份上肢灵活性问卷:FMA-UL和FAST-UL。为了确保即时实际应用,也提供了它们总分的MDCord。FMA-UL是中枢性麻痹上肢灵活性的标准 criterion,因此常被用作临床试验的主要结局指标。毫不奇怪,已有专门研究提供了此问卷的MDCord。已报告的FMA-UL MDCord值各不相同,从3.2(即4个序数点)到8.2(即9个点)。本研究中呈现的MDCord落在这些先前报告MDC的范围内,这一发现支持了本应用于MDCord估计的方法的有效性。然而,值得注意的是,我们发现的FMA-UL MDCord处于其他研究报告的MDCord值范围的上限,这表明从RA推导MDCord可能比其他MDCord估计技术产生相当保守的结果。关于FAST-UL,这是一种新开发的问卷,据我们所知,尚无先前研究报道其总分的MDC。最后,FMA-UL的MDCord其占总分的百分比小于FAST-UL的,表明FMA-UL具有更优的测量精度。首先,FMA-UL更好的精度可能归因于其比FUST-UL具有更多的类别。确实,众所周知,类别越多,信度越好。直观地说,更多的项目和类别意味着收集更多信息,因此可以实现更精确的人员估计。

本研究使用四种方法计算了两个问卷的MDCord:两种基于敏感性和特异性分析,两种基于RA分层。然而,必须注意的是,所有四种方法最终都从MDCint推导出MDCord。更准确地说,这四种方法阐述了同一个核心思想:使用来自Rasch分析框架的标准测量误差(即SE)来估算MDCord。在分层方法中,分层只是沿着潜在变量的连续段,每个段的长度为1 MDCint。敏感性和特异性分析更明显地基于MDCint工作,因为它旨在识别问卷总得分差异,该差异在检测MDCint定义的显著测量值变化方面具有最高的诊断准确性。

四种方法中最准确的可能是使用参与者模拟的方法。通过这种方法,可以生成大量案例(即经历了显著变化的参与者)来计算敏感性和特异性(以及因此的似然比)。在本研究运行的模拟中,样本量设置为1000名参与者,每个模拟重复1000次。首先,该样本量显著大于RA研究的典型样本量,并且与RA测量框架中其他模拟的样本量一致。此外,样本量和模拟重复次数是基于初步分析选择的,该分析表明1000名参与者和1000次重复提供了稳定的LR+和LR-估计。特别是,在500到2000次模拟重复之间,未发现LR+和LR-估计及其2.5至97.5百分位区间有实质性变化。

关于使用的便易性,从MDCint推导MDCord的最简单方法可能是修正的B1方法。只要提供了得分-测量表,就可以从中推导出SERMS以及问卷测量值的范围。通过应用公式计算分层数H,并由公式给出MDCord。值得注意的是,两种B方法得出的MDCord总是向上取整到下一个整数。由于序数得分是离散的,该解决方案是唯一完全符合MDCord定义的方案,即超出测量误差的最小得分差异。

本研究提出了从区间对应部分(即MDCint)推导序数MDC(即MDCord)的方法。这种方法在序数得分的实践世界和区间测量值的理论世界之间建立了一座桥梁。序数得分是经典测验理论(CTT)的核心。实际上,自其诞生以来,其主要目的就是为分析从序数项目得出的总得分提供一个实践框架。CTT将这些总得分直接视为区间尺度测量值,从而能够进行信度和测量误差分析。相反,RA不将序数得分视为区间尺度测量值;而是努力从这些得分中提取区间测量值。本研究为两个框架之间提供了一座桥梁。它利用Rasch分析的精度来加强CTT测量中的一个关键概念:序数MDC。

MDCord和MDCint之间的一个关键区别是,MDCord是跨整个量表的单一固定值。另一方面,MDCint根据所对比的测量值而变化。这种可变性是因为MDCint源自标准误(SE),而SE在RA框架中不是恒定的。SE通常在量表中心附近最小,在极端处(即对于最小和最大测量值)最大。SE不是常数而是作为测量值的U形函数变化的观点是直观的。关于这一点,在量表的极端处, targeting 能力水平极高或极低个体的合适项目较少,这导致测量值 precision 降低。

我们的分析以不同方式考虑了可变的MDCint。A方法和B2方法的第二次应用包含了这种可变的SE。相反,修正的B1和最初的B2方法为了简单起见使用单一的、平均的SE(SERMS),将测量误差视为跨量表恒定。A方法的结果在此背景下特别相关。基础的敏感性和特异性分析表明,使用单一的、固定的MDCord来近似可变的、配对特异性MDCint会产生非常高的诊断准确性。这种准确性由 resulting 阳性和阴性似然比证明。因此,当根据诊断医学的标准判断时,选择单一的、固定的MDCord是高度满意和合理的。

此外,补充分析进一步探讨了使用单一、固定MDCord所引入的误差。这些补充分析旨在调查使用固定MDCord所引入的误差在量表上的行为,特别是它是保持恒定还是在某些部分变得更加明显。分析证实,单一、固定的MDCord通常能提供可变MDCint的满意近似。而且,这种近似对于问卷的中心得分最准确,而误差在极端处更为明显。这一发现对FMA-UL和FAST-

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号