《The Journal of Arthroplasty》:Validity of Substantial Clinical Benefit Estimates in Knee Arthroplasty is Weak Based on Comparisons to a Gold Standard of Meaningful Improvement
编辑推荐:
膝关节置换术后临床效益评估的效度验证发现SCB标准诊断效度较弱,尤其在预测差结局时。通过KASTPain随机对照试验和OAI队列研究对比,潜分类分析显示SCB曲线重叠且置信区间相交,支持基线分层SCB的改进必要性。
Daniel L. Riddle | Levent Dumenci
弗吉尼亚联邦大学,里士满,弗吉尼亚州 23298-0224
摘要
目的
医疗保险和医疗补助服务中心(CMS)已经认可了膝关节置换术的实质性临床益处(Substantial Clinical Benefit, SCB)的评估方法,但这些评估方法尚未经过验证。我们通过将SCB的估计值与一个外部验证的“有意义改善”的黄金标准进行比较来检验其有效性。
方法
我们使用了两个数据集:一个是关于膝关节置换术患者疼痛应对技能培训(KASTPain)的无效应随机临床试验,另一个是关于接受膝关节置换术的患者的骨关节炎倡议(Osteoarthritis Initiative, OAI)数据。这两项研究都记录了患者术前和术后的Western Ontario和McMaster大学骨关节炎指数(WOMAC)身体功能评分。OAI数据集共有396名参与者,KASTPain数据集共有384名参与者。
结果
潜在类别分析(Latent Class Analysis, LCA)的评估结果得到了支持。与黄金标准相比,KASTPain研究中达到或超过SCB预期的参与者通常预示着良好的预后结果,而低于SCB预期的变化评分则不能预示不良预后结果。然而,OAI研究中SCB评估的诊断有效性较弱。
结论
我们发现SCB评估的有效性较弱,尤其是在那些未达到SCB预期的参与者群体中。未来的研究应该探索在不同机构获得的基于基线四分位数的SCB评估的有效性。
引言
美国医疗保险和医疗补助服务中心(CMS)最近采用了新的政策,要求使用患者报告的结果指标(Patient-Reported Outcome Measures, PROMs)来评估全关节置换术的疗效[1,2]。CMS认为这些指标非常重要,并从2028年开始强制要求报告这些指标。CMS要求至少50%的受覆盖患者完成PROMs的填写。
这些新规定具有重要意义,CMS表示如果未能达到规定的50%的完成率,将实施财务处罚,并且每家医院的实质性临床益处(SCB)比率将公开公布[3,4]。患者必须在术前(手术前90至0天)和术后(手术后300至425天)完成PROMs的填写。CMS推荐的PROMs包括膝关节和髋关节置换术的Knee Injury and Osteoarthritis Outcome Score Junior (KOOS Jr.) 和 Hip Osteoarthritis and Outcome Score Junior (HOOS Jr.)。CMS将使用Lyman等人提出的SCB标准来评估改善的程度[5]。SCB是基于锚点法(anchor-based)的最小临床重要差异(Minimal Clinically Important Difference, MCID)的修改版本,其分界点反映了相对于MCID而言更大的患者状况改善。CMS公布的SCB值在HOOS Jr.量表上为22分,在KOOS Jr.量表上为15分[5]。这些值,像任何基于锚点的MCID估计一样,用于“诊断”有意义的改变。完整的KOOS和HOOS评分的SCB值略有不同[5]。SCB也被应用于其他多种骨关节炎疾病,包括拇指骨关节炎[6]、肩关节骨关节炎[7]以及非手术治疗的膝关节骨关节炎[8]。这些数据表明,SCB很可能在临床实践中被用来解释大量肌肉骨骼疼痛患者的治疗效果。
SCB的估计值是由Lyman等人根据一家机构的数据开发的[5,9,10]。然而,这些估计值尚未在其他机构得到复制或外部验证。因此,CMS依赖这一机构的SCB估计值来评估全国范围内膝关节置换术患者的改善情况。
Lyman等人使用了一个包含六个选项的Likert型生活质量量表项目[11](从“改善程度超出了我的想象”到“我的生活质量变差”),来定义他们的基于锚点的SCB评分标准。通过接收者操作特征曲线(Receiver Operating Characteristic, ROC)分析确定了“改善程度超出了我的想象”或“显著改善”的患者与“几乎没有改善”的患者之间的两年变化评分的最佳分界点。报告“中度改善”或病情恶化的患者被排除在分析之外。
我们总结了基于锚点的方法的局限性[[12], [13], [14]],这些方法与Lyman等人使用的类似[5]。例如,我们注意到基于锚点的方法依赖于任意的分界点,忽略了随机测量误差,容易受到回忆偏差的影响,并且无法通过科学方法进行证伪,这意味着我们无法确定用于定义锚点阈值的众多分界点中哪些是不正确的[12,15,16]。我们最近使用了一个外部验证的“有意义改善”的黄金标准(即潜在类别增长曲线分析)来比较膝关节置换术的单一MCID估计值和基于基线四分位数的MCID估计值[17]。我们发现,与黄金标准相比,基于基线四分位数的MCID估计值更为准确。本研究的目的是采用类似的方法,利用外部验证的潜在类别分析来评估膝关节置换术后患者的KOOS SCB评估的有效性[5]。鉴于MCID和SCB评估方法之间的相似性,我们假设SCB评估的有效性较弱,尤其是在预测不良预后方面,这与MCID评估的情况类似[17]。负似然比(0.5至0.2表示不良预后)和正似然比(2至5表示良好预后)仅会导致概率发生微小变化[18],我们预计Western Ontario和McMaster大学骨关节炎指数(WOMAC)身体功能评分的良恶预后测量的似然比会落在这个范围内。如果是这样,那么SCB相对于我们的黄金标准的诊断有效性就会较弱。
方法
本研究是对两个数据集收集的纵向围手术期数据的二次分析。第一个数据集是膝关节置换术疼痛应对技能培训(KASTPain)随机试验,这是一个由美国国立卫生研究院(NIH)资助的、针对有疼痛灾难化倾向患者的无效应随机试验(NCT01620983)。KASTPain试验的详细信息可以在试验方案[19]和出版物[20,21]中找到。第二个数据来源是接受膝关节置换术的参与者子组。
结果
OAI数据集共有396名参与者,KASTPain数据集共有384名参与者。两个样本的参与者特征有所不同。例如,KASTPain参与者的平均年龄为63岁(标准差=8岁),而OAI参与者的平均年龄为68岁(标准差=8.5岁)。自我报告为黑人或非裔美国人的参与者比例在KASTPain中为34.9%,在OAI中为12.9%。平均合并症评分在KASTPain中为8.6(标准差=4.1),在OAI中为0.5(标准差=0.7)。数据结果是一致的。
KASTPain和OAI的结果
KASTPain和OAI数据的潜在类别分析(LCA)曲线分离良好,估计曲线周围的置信区间没有重叠,这表明LCA是识别“有意义改善”的准确黄金标准。然而,OAI的SCB曲线分离不够明显,术前和术后6个月的时间点存在交叉(见图1)。估计曲线周围的置信区间有重叠(见补充文件)。敏感性分析也与此结果一致。
讨论
我们发现,SCB在区分膝关节置换术后良好和不良预后方面的诊断有效性较弱。与我们在膝关节置换术中的MCID研究结果类似[17],使用外部黄金标准(LCA)估计的SCB单点值无法区分良好和不良预后。我们认为这是因为SCB或MCID的单点估计没有考虑到术前评分的较大变异,而在膝关节置换术中这种变异是显著的[43]。
补充文件
我们的黄金标准测量方法采用了全信息最大似然法(full information maximum likelihood method),这意味着无论参与者是否提供了完整数据,所有参与者的数据都被用于分析。当某些时间点的数据缺失时,另一种替代方法是完整案例分析(complete-case analysis),但这种方法可能会导致有偏结果[44], [45], [46]。我们对SCB数据也采用了类似的方法,即包括每个时间点的所有可用数据。尽管如此,我们仍然……
CRediT作者贡献声明
Daniel L. Riddle:撰写 – 审稿与编辑、初稿撰写、方法论设计、研究资助、数据整理、概念构思。
Levent Dumenci:撰写 – 审稿与编辑、初稿撰写、软件开发、方法论设计、正式数据分析、概念构思。