解锁新 “武器” PSI：突破传统困境，精准评估医疗样本差异

【字体：大中小】 时间：2025年02月22日 来源：BMC Medical Research Methodology 3.9

编辑推荐：

　　为解决传统样本代表性评估方法在数据获取和处理大规模数据集时的困境，作者[第一作者单位] 研究人员开展 PSI 检测样本差异的研究。结果显示 PSI 能有效检测差异且不受大样本影响。推荐科研读者阅读，助您了解样本评估新视角。

在医学研究的大舞台上，样本代表性就像是一块关键拼图，它对研究结果能否准确反映真实情况，以及能否广泛应用到更广泛人群中起着决定性作用。想象一下，如果研究样本不能很好地代表目标人群，就好比用一幅不完整的地图去指引方向，那得出的研究结论很可能会偏离实际，误导后续的医疗决策和公共卫生政策制定。

在过去，传统的样本代表性评估方法就像老派的地图绘制者，依赖详细的原始数据来判断样本和总体之间的差异。然而，现实往往很残酷，这些原始数据常常 “神龙见首不见尾”，难以获取。而且，当面对大规模数据集时，传统方法就像小马拉大车，力不从心，会出现过度捕捉细微差异的问题，而这些差异在临床上可能并没有实际意义。就好比用高精度显微镜去看一幅地图，虽然能看到很多细节，但这些细节对找到正确的路并没有帮助。更让人头疼的是，实际研究中基于人群的数据大多是以汇总形式存在的，这就给传统评估方法的使用带来了极大的限制。

在这样的困境下，来自作者[第一作者单位] 的研究人员决心寻找新的 “地图绘制方法”，于是他们在《BMC Medical Research Methodology》期刊上发表了名为《Evaluating the use of the population stability index to detect sample differences in population - based data》的论文。他们试图探索一种在人工智能研究中常用的评估数据漂移的指标 —— 人口稳定性指数（Population Stability Index，PSI），能否在医疗研究中检测样本差异，尤其是在只能获取汇总数据或面对大规模数据集时，PSI 是否能发挥独特的作用。

研究人员在这项研究中用到了几个关键技术方法。他们从美国国家癌症研究所的监测、流行病学和最终结果（Surveillance, Epidemiology, and End Results，SEER）数据库中提取了美国癌症患者的性别、年龄和癌症类型等数据。然后，使用 PSI 的计算公式（其中代表变量的类别总数，是评分样本中某一类别患者的百分比，是参考样本中某一类别患者的百分比），计算每个变量的 PSI 值，以此来比较不同年份样本间的差异。为了验证 PSI 的效果，他们还将 PSI 结果与卡方检验（Chi - Square test）结果进行对比，并使用 Cramér's V 来评估样本间差异的大小。

下面我们来看看研究都得到了哪些有趣的结果。

人口统计数据呈现

研究人员先整理出了美国癌症人口按年龄、性别和癌症部位组别的年度统计数据，这就像是绘制了一幅详细的癌症人口 “地图”，为后续的分析打下了基础。从这些数据中，能初步看到不同年份癌症人口在各个维度上的分布情况。

PSI 分数差异显著

计算得到的 PSI 分数显示，不同年份间年龄、性别和癌症部位分布的差异可真是 “大相径庭”。分数范围从 2.96 到小于 0.01 不等。其中，2000 年与其他年份相比，癌症人口特征在 PSI 分数上呈现出中度到显著的差异。而且研究人员还发现了一个有趣的现象，当参考年份和评分年份越接近时，PSI 分数就越不容易达到中度或显著差异的阈值。比如说，2016 年和 2000 年年龄组比较时，PSI 分数高达 2.96，进一步分析发现，2016 年 60 - 64 岁、65 - 69 岁和 75 - 79 岁年龄组的癌症患者明显增多。这就好像不同年份的癌症人口 “地图”，在某些区域的 “颜色”（患者数量分布）随着时间变化越来越不一样，而相邻年份之间的变化相对较小。

传统检验存在问题

再看看传统的卡方检验结果，大部分比较都显示出显著性。但是，当用 Cramér's V 评估这些显著差异的大小时，却发现效应量都很小，范围在小于 0.01 到 0.09 之间。这意味着，虽然卡方检验说有差异，但实际上这些差异可能在临床上并不重要，就好比它喊 “狼来了”，但其实只是小动静，这就是传统方法在处理大规模数据时容易出现的过度敏感问题。

综合研究结果和讨论部分，我们能发现这项研究有着重要意义。研究表明，PSI 在检测大样本间变量分布差异方面有着独特的优势，它能有效避免传统方法在大样本下出现的过度捕捉细微差异的问题。当样本量很大时，传统的统计工具（如卡方检验）就像一个过于敏感的报警器，会把一些临床上不重要的差异也当作重要发现。而 PSI 就像一个更精准的探测器，能更准确地评估样本差异。而且，PSI 还能通过分解分数，帮助研究人员找到导致样本差异的具体类别，为进一步研究指明方向。比如说，通过 PSI 分析年龄组差异，能发现美国癌症人口老龄化的趋势。

不过，PSI 也不是 “十全十美” 的。它要求变量是分类变量，如果是数值变量，就需要先进行分箱处理，这过程中可能会丢失一些信息，而且分箱大小还会影响 PSI 分数。就好比把一个大蛋糕切成不同大小的块，切法不同，得到的结果也不一样。另外，目前关于 PSI 指标和分数解释的讨论在学术领域还比较少，而且它也无法检测出两个样本中都存在的选择偏倚。而且，PSI 主要用于单变量比较，虽然理论上可以将多个变量合并进行分析，但需要原始数据，在这项研究中无法实现。

总的来说，这项研究为医疗研究中样本差异的检测提供了新的思路和方法。在原始数据难以获取，且样本量较大的情况下，PSI 无疑是评估样本代表性的一个不错选择。它就像一把新的 “钥匙”，为研究人员打开了更准确评估样本代表性的大门，帮助他们更接近真实的医学研究 “地图”，让研究结论更可靠，对后续的医疗决策和公共卫生政策制定也更有参考价值。未来，还需要进一步研究来比较 PSI 和其他样本代表性指标，让这把 “钥匙” 更好地发挥作用。

人口统计数据呈现

PSI 分数差异显著

传统检验存在问题

热点排行

新闻专题