标准化效应量助力患者报告结局(PROs)统计分析:解锁 SF-36 分析新视角

【字体: 时间:2025年04月30日 来源:Health and Quality of Life Outcomes 3.2

编辑推荐:

  患者报告结局(PROs)中的 SF-36 评分分析存在难题,不同统计方法结果难以比较。研究人员对比 10 种统计方法分析 SF-36 数据。结果显示不同方法估算的标准化效应量(SES)有差异。这为合理选择统计方法提供依据,助力准确分析临床数据。

  在临床研究的舞台上,患者报告结局(Patient-Reported Outcomes,PROs)扮演着至关重要的角色,它从患者的视角出发,为评估治疗效果提供了独特且关键的信息。其中,简明健康状况调查问卷(Short-Form 36,SF-36)是常用的 PROs 工具,它通过 36 个项目来衡量患者生活质量,涵盖了生理功能(Physical Functioning,PF)、身体疼痛(Bodily Pain,BP)等多个领域。然而,这个看似 “得力” 的工具却藏着不少麻烦。
SF-36 生成的领域得分常常呈现离散、有界且偏态的特征,就像一群调皮的孩子,不按常理出牌。这可让传统的统计方法犯了难,使用经典统计方法(如线性回归或 t 检验)进行分析时,模型假设(如残差的正态性或同方差性)往往被无情地打破。这就好比给不合适的人穿了不合适的衣服,不仅看着别扭,还会导致估计结果不可靠,置信区间变宽、标准误差增大,最终无法为医疗决策提供准确有力的支持。
与此同时,虽然针对 SF-36 数据的统计方法层出不穷,也有一些比较研究,但不同方法得出的估计治疗系数常常无法直接比较,就像不同语言的人在交流,各说各话,难以达成共识。比如有序 logit 模型的估计结果和线性回归的估计结果,一个是优势比,一个是均值,完全是不同的 “语言”,无法进行有效的对比。
为了解决这些棘手的问题,来自英国约克大学卫生经济中心和谢菲尔德大学医学院及人口健康学院的研究人员 Yirui Qian、Stephen J. Walters 等人开展了一项极具意义的研究。他们的研究成果发表在《Health and Quality of Life Outcomes》杂志上。
这项研究旨在运用多种统计方法分析随机对照试验(Randomised Controlled Trials,RCTs)中的 SF-36 领域得分,并借助标准化效应量(Standardised Effect Size,SES)这一统一 “语言”,对不同方法的估计结果进行比较。
研究人员采用的主要技术方法包括:利用三个 RCTs 的数据,对 SF-36v2 的原始评分机制在单一随访时间点的结果进行二次分析。运用了 10 种统计方法,这些方法涵盖了多种类型,如常用的多重线性回归(Multiple Linear Regression,MLR),它无需对响应变量进行转换,易于解释;还有 Tobit 回归(Tobit)、截尾绝对最小偏差回归(Censored Absolute Least Deviation Regression,CLAD)等。在分析过程中,通过计算估计治疗系数和 SES,使用 Akaike 信息准则(Akaike Information Criterion,AIC)评估模型拟合度 ,并借助 Stata/MP 17.0 软件进行统计分析和数据可视化。
研究结果如下:
  • 数据集描述:研究纳入了慢性阻塞性肺疾病(COPD)、Lifestyle Matters(LM)和 Putting Life IN Years(PLINY)三个 RCTs。分析的随访时间点分别为 COPD 的 2 个月、LM 和 PLINY 的 6 个月。共对 492 例患者的 SF-36 结局数据进行分析,且 SF-36 领域得分在 MLR 和 Tobit 估计后常呈现残差偏态分布和异方差性,20.8% 的序数回归模型结果违反比例优势假设。
  • 估计治疗系数和解释:未转换尺度的统计方法(如 Tobit、CLAD 和 Median)的估计值与 MLR 存在偏差,在治疗效果估计值较大时,它们倾向于产生比 MLR 更高的估计值。转换尺度的方法中,有序 logit 模型(Ordered Logit Model,OL)产生的绝对估计值较高,经指数转换生成优势比后,这种趋势更加明显。以 LM 试验中 6 个月随访时 SF-36 的心理健康(Mental Health,MH)评分为例,不同统计方法的估计治疗系数解释各不相同,如 MLR 显示治疗组 6 个月时未截尾 MH 评分均值比对照组高 2.02 分(调整基线 MH 评分后),而 OL 显示治疗组 MH 评分处于某一类别或更低类别的优势是对照组的 1.34 倍(调整基线 MH 评分后) 。
  • 估计标准化效应量的比较:总体而言,除 PLINY 中部分领域的 SES 绝对值在 0.5 - 1.4 之间,其他数据集的估计 SES 值较小(绝对值小于 0.2)。不同方法估计同一响应的治疗系数时,SES 方向可能不同,但不会出现统计显著且方向相反的情况。与 MLR 相比,Tobit、BB、OP 和 Frac 的 SES 一致性更强,偏差更小,95% 置信区间更窄。例如在分析 LM 和 PLINY 中 6 个月随访时 SF-36 的 MH 评分治疗效果时,不同统计方法在统计显著性和临床显著性方面得出不同结果,如 Median 的 SES 在 LM 中具有统计学意义,而 MLR 则无;在 PLINY 中,除 MLR、CLAD 和 Median 外,大多数方法的估计具有统计学意义。
  • AIC 变化:随着 SF-36 领域得分可能的分类值增加,Tobit、序数回归和二项式回归的 AIC 值增大,模型拟合变差;MLR 的 AIC 值减小,拟合变好;Beta 回归(Beta Regression,BR)的 AIC 值对领域得分分类值的变化不敏感。
    研究结论和讨论部分指出,不同方法估计的 SES 总体上以 MLR 为参考基准具有一致性,但不同方法的估计治疗系数存在差异。例如 Tobit 估计的治疗系数虽比 MLR 大,但 SES 几乎相同,这可能是因为 Tobit 对数据的处理方式及标准差调整的结果。CLAD 在处理数据时效率较低,运行时间长且偶尔无法收敛。不同组合的治疗系数和标准误差估计可能产生相同的标准化效应量,如 OL 估计值高,但标准误差也高,计算 SES 时相互抵消;BLN 假设随机效应服从正态分布,可能不适用于部分 SF-36 领域得分,导致 SES 估计略高。此外,研究还存在一些局限性,如纳入试验的异质性、仅针对 SF-36v2 的研究、分析模型较简单未考虑其他潜在影响、基于真实案例数据无法评估方法偏差等。
    这项研究意义重大,它表明可以使用 SES 统一比较不同尺度统计方法的估计值,但不同方法的 SES 值并不完全相同,提示选择不恰当的统计方法可能得出错误结论。因此,全面了解并谨慎选择合适的统计方法对分析 SF-36 这类数据至关重要,后续研究可通过模拟方法进一步比较这些统计方法在不同场景下的准确性和稳健性,为临床研究中的数据分析提供更可靠的依据,推动医疗决策更加科学、精准。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号