《Biometrical Journal》:When to Adjust for Multiple Testing: A Unifying Guiding Principle
编辑推荐:
医学文献中发表的大多数原始研究均报告了多项统计检验的结果。在少数简单情况下,对于是否需要校正多重检验存在共识;但在实践中遇到的许多情形中,这一问题并不明确,文献中的建议在不同维度上相互矛盾,或令人感到困惑。这种缺乏明确指导的情况可能损害分析的实施与解释,并助长
医学文献中发表的大多数原始研究均报告了多项统计检验的结果。在少数简单情况下,对于是否需要校正多重检验存在共识;但在实践中遇到的许多情形中,这一问题并不明确,文献中的建议在不同维度上相互矛盾,或令人感到困惑。这种缺乏明确指导的情况可能损害分析的实施与解释,并助长可疑的研究实践,最终危及医学研究的可信度。研究人员完善、阐释并讨论了一个统一的指导性原则,以协助统计学家和应用研究人员决定是否需要进行多重检验校正,以及如果需要,应针对哪组检验进行校正。该原则为:当且仅当作者在报告和解释研究结果时,因一个或多个检验的p值较小而对其结果给予更多强调时,才需要进行多重检验校正。研究人员将此原则与先前提出的规则相关联,并展示了该原则如何指导和澄清三种复杂多重检验情境中的校正策略选择。
多重检验校正问题在过去三十年间受到了广泛关注。临床试验中复杂适应性设计的日益普及,以及分子或影像研究等领域中同时考虑数百至数十万项检验的"极端多重检验"的出现,推动了多重检验相关方法论的发展,并催生了多种概念和校正程序。当研究人员疑惑应选择何种校正方法时,可以依赖大量扎实的统计文献和充分的指导;因此,研究人员在此不讨论这一主题。然而,当研究人员疑惑其研究是否需要进行校正、如果需要应针对哪组检验进行校正时,可资利用的文献却十分有限。在少数基础情境中,对是否需要校正存在共识;但在许多其他情境中,相关建议相互矛盾,甚至完全缺失,使得决策依赖于多重标准,导致研究人员产生困惑和不确定性。
文献中常用的一个标准是区分探索性分析与确证性分析。例如,Bender和Lange(2001)仅在确证性分析中推荐严格的多重检验校正,并认为在没有预设假设的探索性研究中无需校正。然而,也有研究者主张,如果需要校正,则对于未计划实验尤为重要(Althouse 2016;Perneger 1998)。此外,也存在确证性情境中可能无需校正的情况,如随机化临床试验(RCT)的次要终点分析(Parker and Weir 2022;Pocock 1977)。另有作者建议将是否校正的决定依赖于所考虑结局变量的类型(Streiner and Norman 2011),或依赖于多重假设的组合方式(析取检验与合取检验;Dmitrienko and D'Agostino 2013;Rubin 2021)。
更为复杂的是检验族的确定,即需要校正的假设集合。Althouse(2016)认为这种选择是虚假的,指出对所有已执行检验(包括基线特征检验)进行校正的荒谬性,以及研究由明显不同部分组成或随时间补充额外子研究等复杂情况。同样,Proschan和Waclawiw(2000)和Hooper(2025)提到了研究人员使用已发表数据进行额外检验的情形,质疑其是否应对先前执行的检验数量进行校正。Bender和Lange(2001)也指出,确定什么构成检验族或其术语中的"实验"(需要校正的范畴)存在困难。检验属于同一实验的概念不易传达,尤其在观察性研究中,使得在许多情境中识别这些检验族变得困难。这一问题在文献中似乎未得到充分考虑,即使被考虑,也常被用作反对校正的论据,而非提供解决方案的基础。
若研究人员严格遵守始终进行多重检验校正的规则,他们可能大幅降低研究的统计功效。甚至有人认为,校正建议可能鼓励将研究项目"切片式"拆分为尽可能多的单假设论文(Althouse 2016;Perneger 1998)。另一方面,从不进行多重检验校正会增加假阳性结果率,导致过度置信和不可重复的发现。
研究人员在本文中阐释并讨论了一个统一的指导性原则,该原则近期在一篇临床期刊的社论中有所勾勒(Boulesteix and Hoffmann 2024),以协助统计学家和应用研究人员决定是否需要进行多重检验校正,以及如果需要,应针对哪组检验进行校正。研究展示了其在三个目前学术界尚无共识的复杂多重检验情境中的应用。该指导原则有助于确定何时进行校正,但这一决定本质上与如何选择校正方法无关。因此,它适用于所有多重检验校正方法。为简便起见,研究人员在展示的应用中使用Bonferroni校正,尽管其他方法在实践中可能更为合适。
**方法与核心原则**
研究的指导性原则认为,是否进行多重检验校正的决策应与其结果显著性如何影响报告和解释密切相关。一般原则是:当且仅当作者在报告和解释研究结果时,因一个或多个检验的p值较小而对其结果给予更多强调时,才需要进行多重检验校正(参见Boulesteix and Hoffmann 2024)。
这一统一原则建立在先前观察的基础上,即核心问题不在于多重检验本身,而在于选择性报告。例如,Benjamini和Hochberg(2000)指出,"对多个子组进行分析,并突出或仅对少数统计显著的子组做出决策,存在危险,即研究结论可能不是真实现象的结果,而 merely 反映了在大量噪声检验中选择极端值"。类似地,Cox(2006, p. 87)写道:"许多调查试图通过一组数据回答多个问题,困难不在于处理多个问题[…],而在于根据表面答案选择一个或少数几个问题。"基于这些观察,所提出的指导性原则明确表明,是否需要进行多重检验校正的问题,仅间接受分析的探索性或确证性特征,甚至研究问题本身的影响。相反,该决策依赖于多重检验结果的报告和解释方式。如果显著性是决定哪些结果在报告、讨论和解释研究时被强调、哪些被相对弱化的关键因素,则需要进行多重检验校正。如果所有检验的结果无论其显著性如何,均被透明报告且大致同等强调和详略,则无需校正,并可节省功效。
这一原则自动回应了Bender和Lange(2001)以及Althouse(2016)关于难以选择应针对哪组检验进行校正的担忧。其推论确实是:需要校正的检验族由每组存在选择性报告和解释且依赖于显著性的检验组成。更正式地,若研究人员对m项检验的p值进行排序,并对具有最小p值的k项检验(k < m)给予更多强调,而对其余m-k项检验给予较少强调,则这k项检验构成一个应进行校正的集合。相反,若部分m项检验独立于其相对于其他检验的排名而被报告,则不应将其视为该集合的一部分。这通常适用于为控制、合理性检查或补充分析等目的进行的检验,这些检验一般无需校正。未纳入给定需校正集合的检验——因其显著性相对于集合中其他成员被独立报告——仍可能属于另一个不同的集合。
该原则与Rubin(2021)的建议——在"个体检验中,每个个体结果必须显著才能拒绝每个相关个体零假设"的情况下不进行校正——以及Bender和Lange(2001)的建议——当"多个检验的结果必须合并为一个最终结论和决策时"进行校正——在表面上有相似之处。在许多情况下,将从中得出单一结论的检验集合与发生选择性报告的集合相同,研究人员的指导原则与Bender和Lange对确证性研究的建议一致。然而,研究人员认为Rubin以及Bender和Lange的建议可能被博弈,即声称检验是为了测试不会合并为最终结论的个体假设。
在一位审稿人提出的假设性例子中,某制药公司可在临床试验中评估某药物的三个剂量,然后辩称其事实上是在检验三个个体零假设"剂量1无治疗效果"、"剂量2无治疗效果"和"剂量3无治疗效果"。若剂量3的结果显著,而剂量1和2不显著,他们可声称按照Bender和Lange(2001)的建议做出以下三个个体结论和后续决策:"剂量1不应上市"、"剂量2不应上市"和"剂量3应上市"。同样,根据Rubin(2021),他们无需进行多重检验校正,因为他们是在检验个体零假设(参见Lakens 2022, Chapter 2中非常相似的论证)。然而,根据研究人员提出的指导原则,他们需要进行校正,因为他们在结果解释中对剂量3的结果给予更多强调,提出将剂量3推向市场。更精确地说,制药公司可选择对所有执行检验给予同等强调的中性报告策略。尽可能中性的报告策略是"执行检验的未校正p值分别为x、y和z"。然而,在这种情况下,得出剂量3应被上市的结论将是不连贯的。另一方面,若他们选择将发现解释为剂量3有效(以便能够得出剂量3应被上市的结论),他们显然因显著性而对剂量3的检验结果在解释中给予更多强调,建议对剂量3采取实际行动而对剂量1和2不做特别处理。根据研究人员的指导原则,在这种情况下他们需要进行多重检验校正。
在此情境下,重要的是强调研究人员提出的指导原则明确将是否进行多重检验校正的决策与报告和解释均相关联,其中解释可能包括从检验结果中得出的潜在建议和影响。特别是,若描述结果的文本明确提及所有检验的结果(在例子中"剂量1不显著,剂量2不显著,剂量3显著"),这也 arguably 符合对所有结果给予同等强调。然而,存在作者(和读者)将在解释中对显著结果给予更多强调的风险,当这种情况发生时则需要校正。为判定报告结果的解释是否对所有检验给予同等强调,可以检查其是否与更中性的报告策略"执行检验的未校正p值分别为x、y和z"逻辑上连贯。最后,注意当执行多重检验时,族错误率 Pablo (family-wise error rate, FWER)和错误发现率(false discovery rate, FDR)当然会高于α水平。然而,当采用中性报告-解释策略时,这实际上无关紧要,因为此时无法拒绝个体零假设。一旦研究人员拒绝某个体零假设,他们即因该结果的显著性而对其给予更多强调,因此根据研究人员提出的指导原则需要进行校正。
**研究结果**
**经典情境中的应用**:指导原则在五种简单经典情境中与文献中的普遍推荐一致。(1)具有多重主要终点的RCT:若试验在至少一项检验显著时即被声明和报告为成功,则对显著结果给予更多强调,需要校正。(2)含期中分析的RCT:研究在期中分析拒绝零假设时即停止并声明成功,对首次显著结果给予更多强调,需要校正,实践中可采用成组序贯设计(O'Brien and Fleming 1979;Pocock 1977)。(3)RCT的次要终点:通常无论零假设是否被拒绝,次要终点检验结果均被等同报告,无需校正。(4)高维组学数据:作者通常仅报告和讨论p值最小的一小部分检验,这些检验正是因其p值而被报告,需要校正。(5)多重分析策略:当作者选择性报告最显著结果时,需要校正,这与文献强调需要以某种方式考虑分析多重性一致。
**实例展示1:动物实验的样本量计算**:在设计探索性动物实验时,可能计划进行大量比较和检验。例如,研究人员可能计划比较两种治疗(A和B)与安慰剂在四个时间点、三个剂量水平以及两种按疾病严重程度分组的小鼠中的两种结局的效果,共计96项检验。研究人员可能因已知疾病病理和先前实验而确定:更高剂量总是导致更大效应;治疗在疾病严重程度低的小鼠组中更可能有效;治疗A是已确立的治疗,作为阳性对照。因此,涉及治疗A和不同剂量水平的检验结果不会因显著性而获得更多关注——对于治疗A,显著结果不值得更多关注,因为其有效性已确立;对于剂量水平,低剂量显著而高剂量不显著的模式被认为生物学上不可信。然而,结局1的检验若显著,研究人员可能在摘要甚至标题中提及,而对结局2则不会过多着墨;类似地,他们可能仅在单个或两个时间点显著时即认为治疗整体有效。在此情境中,指导原则帮助将需校正的检验数从96减少到8,因为四个时间点和两种结局是唯一作者因显著性而在报告、讨论和解释中给予更多权重的检验。若进行样本量计算(假设为简便使用Bonferroni程序),可将α水平设为0.05/8进行校正。
**实例展示2:两组高维变量**:分析使用高通量技术测量的分子标志物与临床结局的关联时,常进行单变量检验筛选以决定哪些标志物需要进一步研究。该例使用来自120例尿路上皮膀胱癌患者的TCGA数据,结局为总生存期,候选标志物为23,081个RNA标志物和825个miRNA标志物。使用单变量Cox回归模型评估生存与每个标志物的关联,并使用Bonferroni程序进行校正。根据指导原则,若作者因RNA标志物类型"与结局关联更强"而在报告中聚焦于此,同时对另一类型给予较少关注,则应同时校正全部24,086个标志物(策略A)。相反,若他们希望平等报告RNA和miRNA结果,则可在每种类型内分别校正,此时可拒绝一个miRNA标志物的零假设(策略B)。若对所有23,086和825个检验结果等同报告,则完全无需校正(策略C),但会导致论文冗长混乱。
**实例展示3:多种新型潜在危险因素**:在队列研究中,研究者可能关注全因死亡率与各种维生素(如维生素A、B9、B12、C、D、E、K)血液水平之间的关联。无论选择何种统计方法控制混杂(如将所有变量纳入logistic或Cox回归模型),每个维生素和每个调整变量均可获得与全因死亡率关联的估计值和p值。根据指导原则,应针对作者在报告、讨论或解释中发现显著时给予更多强调的那组检验进行校正。在此例中,该集合仅包括维生素,而其他协变量(其与结局的关联已在文献中确立)对结果报告和解释无影响。年龄与总死亡率的显著关联不会转化为标题"年龄与总死亡率相关"或在摘要中提及。对于维生素组,两种报告策略是可能的:作者可因某些变量显著而给予更多强调,如标题写"维生素D和维生素B12是全因死亡率的独立危险因素";或选择更中性的解释,避免任何偏向性报道,报告"七种维生素中有两种是全因死亡率的独立危险因素"。第一种情况需要针对七项检验进行校正,第二种则不需要,因为作者对所有执行检验给予同等强调,无论其显著性如何。
**讨论与结论**
研究人员在本文中阐释并讨论了由Boulesteix和Hoffmann(2024)勾勒的普遍性指导原则,该原则建立在核心问题不在于多重检验本身、而在于选择性报告和解释这一先前观察的基础上。该原则为研究人员提供了指导,帮助其在非平凡情境下确定何时校正以及针对哪组检验进行校正。它并不使这一决策变得容易或显而易见,但确实使其不那么困难。该原则具有统一性,涵盖了多种被广泛接受的推荐作为特例。研究人员通过三个实例研究展示了其应用。
为免复杂化信息,研究人员未讨论如何校正的问题,主要聚焦于控制族错误率的熟知Bonferroni程序。然而,研究人员承认,在许多情境中,更强大的替代程序(特别是考虑假设依赖性模式的程序)或其他错误概念(如Benjamini和Hochberg 1995的错误发现率)可能更为可取。
该指导原则还明确表明,在超出狭义多重检验校正的背景下,进行荟萃分析时需要对发表偏倚进行校正。按照研究人员的术语,科学文献整体倾向于通过期刊编辑和审稿人的作用(更可能拒绝阴性结果的研究)或作者自身(对令人失望的结果进行自我审查)对显著结果给予比非显著结果更多的强调。因此,在荟萃分析中估计效应时需要对发表偏倚进行校正,这可被视为广义的校正多重性,即使用于纠正发表偏倚的方法与经典意义上多重检验校正的方法不同。
然而,该指导原则也存在若干局限性。首先,"给予更多强调"这一措辞存在主观解释空间,尤其是因为整体强调由文章全文的措辞、表格和图形共同塑造。显然,标题或摘要中特别提及的检验比其他检验获得更多强调。但在结果和讨论部分或通过图形对不同检验的解释给予更多关注,可能更难判断。给予更多强调并非二元特征,实践中无法期望所有检验获得完全相同的强调水平。该原则关乎整体信息而非字面字数统计,因此不应被狭义或过度严格地解释。
其次,该原则不能防止自我欺骗。除预注册研究外,研究人员通常可能说服自己和他人其原本就打算聚焦特定结果,并未在看到结果后改变报告-解释策略。第三,若统计检验以虚假方式进行,例如希望确认零假设,该原则亦无帮助。这通常是将新治疗与标准治疗的安全性终点进行比较时的情形。然而,该原则原则上可在等效性检验的背景下使用。
最后,即使研究人员在论文中对所有检验无论显著性如何均给予同等强调的报告和解释,读者仍可能选择性报告和解释论文中的发现,通常对显著结果给予更多强调。这可被视为该原则的局限性。为缓解这一问题,原始论文中除报告未校正(原始)p值外,还可能报告最可能关注的检验族(或检验族)的校正p值,并建议选择性地考虑、再报告或解释发现的读者依赖相应的校正p值。在此背景下,研究人员强调任何标准或报告策略均不能替代读者的个人责任,也不能使统计素养变得多余。
更进一步,该指导原则的基本思想不仅适用于必须决定是否校正的作者,也适用于从多项研究或论文中选择统计显著结果进行进一步研究的读者。该原则的此类扩展可能在以后的工作中进一步阐述,以解决作者试图将研究拆分为多篇论文、读者选择其中之一进一步调查其结果的情况。
尽管该指导原则基于结果 intended 的报告方式,但研究人员未讨论已应用校正本身的报告问题。STROBE等观察性研究报告指南未包含相关建议,SPIRIT(Chan et?al. 2025)和CONSORT随机试验报告指南(Hopewell et?al. 2025)则相对模糊,对多重性方面应报告什么未做坚定推荐。例如,在试验设计阶段,SPIRIT-2025方案报告指南(项目27a)将"如有,考虑多重性的方法"列为关键要素(Hróbjartsson et?al. 2025)。类似地,在试验结果阶段,CONSORT-2025建议:"应描述用于减轻或多重性考虑校正的任何方法。如未使用校正方法(如不适用或未考虑),也应报告,特别是在执行大量分析时。"此外,SPIRIT和CONSORT等报告指南仅在其配套的解释和说明文件中提及多重性,这些文件可能未被阅读,这可能需要在指南的未来更新中重新审视。鉴于可用的校正程序之广泛,为便于透明度和研究可信度,迫切就需要报告的多重检验校正关键细节制定共识驱动的推荐。这些可能涉及例如使用了何种校正或调整程序(及原因)、是否应用了分层检验、哪些结局、亚组和分析被纳入校正,以及执行的检验总数等。
最后,重要的是强调该指导原则不能解决医学文献中使用统计显著性的诸多误解(Goodman 2008;Greenland et?al. 2016)和可能产生的问题(Amrhein et?al. 2019;Wasserstein et?al. 2019)。它能做的是帮助明确何时进行多重检验校正,并在研究人员选择依赖检验时改善其对显著性检验的使用、解释和报告。推广该指导原则并不意味着为显著性检验本身的运用辩护。重要的是,该指导原则的核心思想——校正的必要性由报告策略决定——可延伸至假设检验之外的其他情境。例如,若将原则重新定义为因一个或多个量的极端值而对其结果给予更多强调,它可能帮助研究人员决定置信区间或贝叶斯因子(通常被提倡作为零假设显著性检验的替代或补充)是否需要多重性校正。