编辑推荐:
在比较效果研究中,倾向得分匹配法(PSM)备受关注,但 “PSM 悖论” 引发争议。研究人员开展 “Propensity Score Matching: should we use it in designing observational studies?” 主题研究,结果表明 “PSM 悖论” 并非合理担忧,PSM 设计仍可使用,这为 PSM 在研究中的应用提供理论支持。
在医学研究的舞台上,倾向得分匹配法(Propensity Score Matching,PSM)曾是一颗备受瞩目的明星。它就像一把神奇的钥匙,试图打开从观察性数据中获取可靠因果效应的大门,广泛应用于比较不同干预措施的效果研究中。比如在对比积极治疗与安慰剂对照的研究场景里,PSM 通过计算倾向得分(Propensity Score,PS),巧妙地根据基线协变量来匹配研究对象,让处理组和对照组尽可能相似,模拟随机对照试验的效果。
然而,近年来,“PSM 悖论” 的出现却给这把 “钥匙” 蒙上了一层阴影。有研究指出,随着 PSM 逐渐接近精确匹配,不断修剪匹配集时,会出现令人意想不到的情况:协变量不平衡加剧、模型依赖性增强,甚至统计偏差也增大,这与 PSM 原本的目的背道而驰。这一现象引发了众多研究人员的质疑,大家开始思考 PSM 是否还能在研究中继续发挥作用,它到底是研究的得力助手,还是充满风险的工具?在这样的背景下,来自华盛顿大学圣路易斯分校(Washington University in St Louis)的研究人员决定深入探究,开展了 “Propensity Score Matching: should we use it in designing observational studies?” 这项研究。他们的研究成果发表在《BMC Medical Research Methodology》上,为解决这一争议带来了新的曙光。
研究人员为了开展此项研究,运用了多种关键技术方法。在理论层面,基于鲁宾因果模型(Rubin Causal Model,RCM)进行定义和假设,明确了因果效应、潜在结果等概念,并设定了稳定单位治疗值假设(Stable Unit Treatment Value Assumption,SUTVA)、条件可忽略治疗分配假设、正性假设等前提条件。在实际操作中,通过模拟研究,按照特定方法生成模拟数据,运用逻辑回归模型计算 PS,采用最近邻匹配算法进行匹配,并在不同匹配卡尺大小下计算多种评估不平衡的指标,同时进行回归分析来评估模型效果。
研究结果具体如下:
- PSM 悖论的问题剖析:
- 不平衡的增加:以往研究中使用的衡量不平衡的指标,如马氏距离(Mahalanobis distance)等,无法准确捕捉 PSM 设计中观察到的不平衡的 “偶然” 性质。随着匹配对数增加,组间不平衡应趋于零,但这些指标却不能反映这一特性。而且,以往研究通过在单个数据集修剪最差匹配对来展示 PSM 悖论,忽略了平衡是大样本性质,样本量减少会导致偶然不平衡的变异性增加,从而使这些指标上升,并非真正的不平衡加剧。
- 偏差和模型依赖性:以往研究中出现的偏差并非源于混杂因素的不平衡,而是选择了有偏差的估计量。研究人员在多个模型中选择最大估计值的做法,属于 “摘樱桃” 式的选择,导致了偏差。同时,以往定义模型依赖性的方式存在问题,模型依赖性更应定义为无偏效应估计是否依赖正确的模型设定。良好的匹配设计能减少对模型设定的依赖,PSM 就是通过平衡协变量,使处理变量和协变量近似正交,降低模型依赖性。
- PSM 模拟的随机设计类型:PSM 并非像之前认为的那样模拟完全随机设计(Completely Randomized Design,CRD),而是更类似于随机区组设计(Randomized Block Design,RBD)。通过计算匹配对的组内相关系数发现,PSM 组内相关系数取决于两个系数向量的正弦距离,在研究设定下,PSM 本质上模拟的是组内相关系数较高的 RBD。而且,PSM 与协变量匹配(Covariate Matching,CM)相比,相对效率取决于匹配对数和相关方差,在某些情况下 PSM 更具优势。
- 模拟结果:通过模拟研究,发现随着匹配卡尺变小,马氏距离等指标先下降后上升,标准化均差(Standardized Mean Difference,SMD)能更好地反映偶然不平衡,在最优卡尺大小下趋于零。回归分析表明,正确设定的模型能产生无偏结果,即使模型设定错误,匹配正确时也能得到近似无偏的估计。同时,匹配能降低参数模型对模型设定错误的敏感性,在不同设定下都验证了 PSM 的相关特性。
研究结论和讨论部分指出,PSM 在匹配设计中能有效平衡混杂变量,观察到的不平衡主要是偶然因素导致,不会影响效应估计。PSM 设计还能降低对模型设定错误的敏感性,简单的组均值差异和基于匹配因素线性项的回归调整都能准确估计总体平均治疗效果(Population Average Treatment Effect,PATE)。“PSM 悖论” 主要是由于之前研究使用了不恰当的评估指标,因此,研究人员不应因这一悖论而放弃使用 PSM。此外,PSM 虽然存在一些局限性,如在存在大量未测量混杂因素时可能失效、需要正确设定 PS 模型等,但它在解决匹配设计中的维度诅咒问题上具有重要意义,为观察性研究提供了实用的方法。这项研究为 PSM 在比较效果研究中的应用提供了坚实的理论支持,让研究人员能更加科学、合理地运用 PSM,推动医学研究的发展。