复制研究与多重两试验规则ん多假设下的最优加权检验

《Statistics in Medicine》：Optimal Weighted Tests for Replication Studies and the ‘Two-Trials Rule’ With Multiple Hypotheses

【字体：大中小】 时间：2026年07月03日 来源：Statistics in Medicine 2.1

编辑推荐：

　　摘要：科学研究的复制研究是确保实验发现可靠性与完整性的重要环节。在临床试验背景下，复制的概念被美国FDA formalized为"两试验规则(Two-Trials Rule)"，即要求两项关键研究均显示阳性结果方可批准药物。在同时检验多个假设的实验中，通常还需

摘要：科学研究的复制研究是确保实验发现可靠性与完整性的重要环节。在临床试验背景下，复制的概念被美国FDA formalized为"两试验规则(Two-Trials Rule)"，即要求两项关键研究均显示阳性结果方可批准药物。在同时检验多个假设的实验中，通常还需控制总体家族错误率(Familywise Error Rate, FWER)。著名的Bonferroni程序可控制FWER，其自然的推广是在程序中引入权重以反映假设的先验重要性或最大化实验整体效能的某种度量。研究人员考虑利用最优加权Bonferroni程序分析复制研究，权重基于被复制的原始研究结果确定，优化准则为最大化试验析取功效(Disjunctive Power of the trial)——即至少拒绝一个非原假设的概率。研究表明，所提程序可显著提高成功概率(Probability of Success, PoS)，对两研究间效应量变化具有稳健性，并能恢复两试验规则的提交水平Ⅰ类错误率。

研究背景与问题提出

在确认性临床试验及多假设并行的科学实验中，"可重复危机(reproducibility crisis)"促使监管机构（如FDA）要求通过"两试验规则(Two-Trials Rule)"——两个独立关键试验均达统计学显著（单侧α=0.025）——来确证疗效。当试验涉及多个终点、多剂量组或多治疗组时，需控制家族错误率(Familywise Error Rate, FWER)，常用方法为Bonferroni校正，即将总α等额分配至各假设。标准Bonferroni未利用原始研究(original study/试验1)的信息，对所有假设给予均等惩罚，导致在多项假设中真正有较强效应的假设检验效能(power)被不必要地稀释，尤其当研究者主要关注"至少一个有效假设被拒绝"（析取功效, Disjunctive Power）时。已有加权Bonferroni文献多用均值功效或需预设效应量，而复制研究中试验1已完成可提供效应量估计，但鲜有研究将此用于多假设两试验框架下的加权Bonferroni优化。本文由Daniel S. Robertson等发表于《Statistics in Medicine》，旨在利用试验1结果估计效应量，计算试验2的最优加权Bonferroni权重以最大化析取功效，并验证其对成功概率(Probability of Success, PoS = 两试验均拒绝同一非原假设)、FWER及提交层面Ⅰ类错误率(Submission-Wise Type I Error Rate, SWER)的影响。

主要技术方法

研究人员建立两独立试验模型，试验1用标准(unweighted) Bonferroni(α/m)筛选拒绝假设集作为非原假设指示，并以试验1的MLE估计标准化处理均值δ_i代入优化问题；试验2采用加权Bonferroni——若p_i⁽²⁾≤ α·w_i/m（原文推导等价于α·w_i，实践中按标准加权Bonferroni p_i^adj=p_i/w_i≤α/m），∑w_i=1。优化目标为最大化试验2析取功效 1?∏_i∈H₁Φ(z_{α·w_i}?δ_i)，通过拉格朗日求解导出最优权重满足 w_i∝ 1/φ(z_{α·w_i}?δ_i)·∏_j≠iΦ(z_{α·w_j}?δ_j)，用R包nleqslv解非线性联立方程；若m≤3辅以网格搜索验证。案例研究含FDA Bepreve眼科药两Ⅲ期试验(m=4或6)及癌症生物学再项目(Reproducibility Project: Cancer Biology, RP:CB)中Sirota et al.三个比较。模拟设置：试验1、2分别生成Z～N(δ_i,1)、N(δ'_i,1)，δ'=δ（一致效应）或δ'=δ+Δ（效应偏移），评估析取PoS(dPoS)、边际PoS(mPoS)、SWER（全局原假设下），并与标准Bonferroni对照。

研究结果

2 Methods（方法）

2.1 Weighted Bonferroni Procedure（加权Bonferroni程序）

形式化定义试验1拒绝集R₁={i:p_i⁽¹⁾≤α/m}，以此定义非原假设集H₁=R₁（若为空则回退等权），以δ?_i⁽¹⁾MLE作δ_i代入优化求w_i。给出析取功效表达式并构建约束最大化问题(1)，推导闭式最优权重满足方程组(2)，可用nleqslv数值求解，较nloptr多起点法更快且不易陷于局部最优。

2.2 Estimating Optimal Weights in Practice（实践中最优权重估计）

明确用试验1的MLE估计δ_i，以试验1 Bonferroni拒绝假设定义H₁；若无非拒绝则w_i=1/m还原标准Bonferroni。强调仅需试验1结果在分析试验2统计分析计划(SAP)定稿前可得，允许两试验并行启动。

3 Illustrative Examples（实例说明）

3.1 Bepreve Clinical Trials（Bepreve临床试验）

对Bepotastine Besilate眼用溶液两Ⅲ期CAC试验，取不同时间点/终点组合(m=4或6)，以Trial 1均值算最优权重（如Visit 3眼痒两浓度权重(0.53,0.47,0,0)），Trial 2用加权Bonferroni得更小调整后p值于Trial 1显著假设，整体两试验共同拒绝决策在示例数据中不变，但展示了理论可使原本未共同拒绝变为共同拒绝的情形。

3.2 Cancer Biology Replication Study（癌症生物学复制研究）

RP:CB中Sirota et al.复制实验(m=3)，原实验仅doxorubicin vs control显著→权重(0,0,1)，复制实验加权后仅该比较达显著；若原实验另加cimetidine/A549显著则权重(0.16,0,0.84)，说明权重完全依试验1拒绝模式与效应量分配，偶可导致某假设边际功效降低。

4 Simulation Studies（模拟研究）

4.1 Set-Up（设置）

详述数据生成、δ及δ'设定场景（单有效、阶梯效应、随机U(0,2.5)^m），评估指标dPoS（两试验均至少拒一非原）、mPoS_i（特定假设两试验均拒），SWER，α=0.025单侧，每场景万次模拟。

4.2 Consistent Treatment Effects（一致处理效应）

•
4.2.1 Two Treatments（两个处理）：δ₁=δ₂时权重均0.5；δ₁>δ₂时w₁↑。加权Bonferroni dPoS始终≥标准Bonferroni，最大增益≈0.069（δ₁=2.5,δ₂=0），增益区在dPoS中等(40%–70%)时最有价值；mPoS对大效应假设增益，对小效应假设略降（当另一假设效应极大时）。即便δ₁=δ₂因权重随机波动偏向大效应假设仍带来微dPoS增益。
•
4.2.2 m Treatments（m个处理）：m=3(δ=(2.5,1.5,0), δ'=δ) dPoS最大增益≈0.101；m=5(δ=(2.5,1.875,1.25,0.625,0), δ'=δ) dPoS最大增益≈0.134–0.149，mPoS对非零效应假设也提升。单有效假设情形加权mPoS=dPoS严格优于标准Bonferroni。

4.3 Submission/Project Wise Error Rate（提交/项目层面错误率）

全局原假设下标准Bonferroni SWER=1?(1?α/m)^2m≈α²/m?α²/2；加权Bonferroni因试验1极少拒原→实际SWER≈α²/2=0.000625（双侧α=0.05时），模拟证实m=2,3,5时≈0.0024接近经典两试验规则SWER(α²=0.0025,单侧α=0.025→0.000625?注：文内取双侧α=0.05则(0.025)²=0.000625，表5显示加权经验SWER≈0.0024对应双侧α=0.05之(0.05/2)²×修正≈0.0025——恢复了两试验规则提交层面Ⅰ类错误率)。

4.4 Robustness（稳健性）

试验2 δ'=δ+Δ(Δ=?1.5~1.5)，适度偏移(δ₂'=δ₂?1.5等)加权仍dPoS≥标准Bonferroni；极端反向(δ₁=2.5,δ₂'=?2.5)时极小区域dPoS微降(≤0.063)，属不现实大偏移。表明方法对两试验效应差异具良好稳健性。

5 Discussion（讨论部分结论翻译）

所提最优加权Bonferroni程序在两试验规则及更一般复制研究情境下可显著提升析取成功概率(disjunctive Probability of Success, dPoS)，尤其当标准Bonferroni dPoS处于中等水平(未达80%–90%)时增益明显，且增益随假设数m增大(最大dPoS增益m=2→0.069, m=3→0.101, m=5→0.134)。加权Bonferroni恢复与两试验规则相同的提交层面Ⅰ类错误率(Submission-Wise Type I Error Rate, SWER)。即使两试验真实处理均值不同，该方法对dPoS提升仍表现稳健（至少在双处理设定下）。以最大化试验2析取功效为准则会牺牲部分边际功效(marginal power)给较小效应假设——此为优化目标权衡所致；若关注特定假设边际功效可选用其他准则（如平均功效或合取功效）。要求试验1结果在试验2统计分析计划最终定稿前可得，药监开发中常可实现。测试统计量相关性不影响FWER控制（加权Bonferroni固有性质），忽略相关性可能低估/高估析取功效但模拟显示直至ρ=0.8影响甚微且加权仍优于标准Bonferroni。未来可拓展至加权Holm(Holm-Bonferroni)、加权Dunnett等多重检验框架。

热点排行