综述:通过定义效应量较小时的准确性来更好地看待临床研究
《Clínica e Investigación en Arteriosclerosis》:Putting clinical studies into better perspective by defining accuracy when effect size is small
【字体:
大
中
小
】
时间:2025年10月18日
来源:Clínica e Investigación en Arteriosclerosis 1.9
编辑推荐:
本文综述探讨了在大数据时代,针对效应量(effect size)较小的临床研究,如何超越单纯的p值显著性(如p ≤ 0.05),通过将相对风险(RR)、优势比(OR)等相对指标转换为需治数(NNT)、诊断敏感性等更绝对的参数,来评估其临床准确性和实用性,为医学实践者提供更清晰的决策视角。
近年来,计算技术的进步使得计算机能够快速分析数十甚至数千个观测数据。大量的观测数据可以提高统计的确定性,但当效应量(effect size)属于所谓的“微小”甚至“中等”时,可能会增加临床/流行病学的不确定性。因为尽管p值可能达到显著性水平,但临床区分度可能很差。此外,当效应量较小时,研究表明结论可能因未知的混杂因素、样本选择、计算所用的统计模型及其他因素而存在缺陷。虽然临床/流行病学结果可被视为效力或效果,但人们可能会问,这些结果是否能转化为准确性的度量。本文旨在展示如何将风险比(RR)或优势比(OR)等指标转化为能更好定义临床实用性的更绝对参数。
本综述讨论了有助于医疗提供者将统计结果置于一个允许更好决策的视角下的技术。文中举例并描述了计算方法,通过将常提供的相对统计量(如风险比、风险比和优势比)转换为或计算诊断统计量或需治数/需暴露数(NNT/NNE),可以更容易地以更绝对的术语进行检验/转换,从而提供更好的实践视角。
如上所述,具有小效应量且达到统计学显著性的研究总是值得怀疑的,但可以将其转换或用某些参数来审视,使观察者能够从准确性的角度更好地评估结果。这可能提供一个更实用的视角。
非常大量的观测数据——非常大的样本——对于帮助确保统计确定性是可取的,但对于临床目的而言,它可能产生不确定性。通常,p ≤ 0.05已被用来判断均值或分布之间是否存在差异,但尽管p值表明变量间存在差异,它很少说明差异的程度。原因是p值随着观测数量的增加而减小。描述变量间差异程度的是效应量,因此,当观测数量很大时,小的效应量可能在p ≤ 0.05水平上显得具有统计学显著性,但可能显示出较差的临床/流行病学价值。
当Karl Pearson提出卡方检验,以及Ronald Fisher在20世纪初将p值0.05定义为实用分界值时,还没有电子计算器,更不用说能在几分钟内计算数千个观测数据统计量的电脑了。正如Efron教授在美国统计协会主席致辞中指出:“重要的是要认识到频率主义(经典)统计学旨在应用于具有少数参数的几百个数据点,而现代医学研究试验和具有多重阵列的遗传学研究则检查具有多个参数的数千个观测数据。”
这个问题在遗传学中针对全基因组和外显子组关联研究已得到认识,其中非常大量的数据很常见,并且基于对全基因组独立常见变异的数量的Bonferroni校正,建议将p ≤ 5 × 10-8作为显著性分界值。然而,即使基因组研究达到了非常低的p值,许多此类研究显示的是微小的效应。事实上,有些人建议完全从研究中取消p值。小效应量易受随机误差、样本选择、未知混杂因素以及所选统计模型引起的变异性影响,使得不同研究可能得出不同的、甚至相反的结论,导致统计显著性不一致。事实上,如果效应量小,即使预测是正确的,事件在大多数情况下也不会发生。
优势比(OR)、风险比(RR)和风险比(HR)是衡量暴露与结果之间关联的指标。RR直接比较暴露组与未暴露组在特定时期内发生结果的概率,而HR衡量在任一(或所有)给定时间点的关联。OR则比较暴露组与未暴露组发生结果的几率。如今,大多数队列临床研究以RR或HR表示结果,横断面研究以OR表示。当效应量较小时,尤其难以对这些比率如何应用获得良好的实践视角。临床区分度的问题对医学从业者,特别是实验室从业者至关重要。在此,我回顾了一些有助于更好地理解临床、流行病学和公共卫生研究中效应量意义的方法。也就是说,探索允许对效应量进行更实际比较的途径。
许多临床研究将一致性视为效力而非诊断准确性。但在检验医学中,使用诊断敏感性(sensitivity)和特异性(specificity)以及预测值(predictive values),因为这些参数定义了检验使用条件下的诊断准确性。诊断准确性的概念不必局限于检验本身,可通过将预后指标转化为准确性度量,来帮助理解临床/流行病学研究。
例如,可以将风险比(RR)或优势比(OR)转换为需治数(NNT)或需暴露数(NNE),这提供了需要干预多少个体才能预防一例不良事件的绝对度量。同样,可以计算受试者工作特征曲线下面积(AUC)或C统计量(C-statistic),并将其与OR关联起来,以评估预测模型的判别能力。一个常见的例子是,即使风险比具有统计学显著性(例如HR = 1.15),其对应的NNT可能非常大(例如超过100),这意味着临床效用有限。另一个例子是,当C统计量的改善很小(例如从0.812增加到0.819,绝对改善仅为0.007)时,尽管可能具有统计学意义,但风险预测的改善被认为是“微小”的。
上述讨论说明了在计算机化计算时代评估大型研究意义的复杂性。显然没有简单的解决方案。确保相对指标对其预期目的有用的一个方法可能是根据观测数量要求更低的p值分界值。例如,100个观测值可能要求p值为0.05,而1000个可能要求p值为0.005,依此类推。这种方法肯定有助于提高结果的可靠性。然而,更重要的是,从业者应养成习惯,除了报告p值和相对风险度量外,还应报告或计算更绝对的度量,如NNT或诊断准确性参数。这使读者能够更好地判断研究结果的临床或公共卫生相关性。
最终,当效应量较小时,统计显著性本身不应被解释为临床重要性。通过使用这里讨论的转换,研究人员和从业者可以对这些研究结果的潜在效用形成更现实、更实际的看法。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号