针对过离散二项终点的预测区间及其在毒理学历史对照数据中的应用研究

【字体: 时间:2025年09月16日 来源:Pharmaceutical Statistics 1.4

编辑推荐:

  本综述系统提出了四种适用于过离散二项数据的预测区间方法(两种频率学派、两种贝叶斯学派),通过蒙特卡洛模拟验证其在毒理学历史对照数据(HCD)中控制I类错误的效果优于常规启发式方法(如历史范围、np图及均值±2SD)。研究强调,基于Bootstrap校准的频率学派预测区间(可通过R包predint实现)覆盖概率最接近名义水平(95%),而贝叶斯广义线性混合模型(GLMM)亦具实用价值。该成果为毒理学实验质量控制提供了统计学严谨且可复现的工具。

  

引言:历史对照数据在毒理学研究中的重要性

在毒理学及临床前研究中,通过历史对照数据(Historical Control Data, HCD)验证并发对照组已成为多项国际指南(如OECD 471、487、489及EFSA)的强制性要求。该验证通常通过历史对照限(Historical Control Limits, HCL)实现,其需以预定置信水平(通常为95%)覆盖并发对照组的观测值。HCL广泛应用于二分类数据(如致癌性研究中患瘤大鼠数量、微核试验中含微核细胞数等)。然而,实际应用中常忽略二分类HCD可能存在的过离散(overdispersion)及严重右偏(或左偏)特性。

为解决该问题,本研究提出四种适用于此类数据的预测区间方法(两种频率学派、两种贝叶斯学派),并通过全面蒙特卡洛模拟比较其覆盖概率与日常毒理学实践中常用启发式HCL(如历史范围、np图限、均值±2SD)的性能。模拟结果表明,频率学派Bootstrap校准预测区间对I类错误的控制最佳,而基于贝叶斯广义线性混合模型的预测区间亦具实际应用价值;相反,所有启发式方法均未能有效控制I类错误。

过离散二项数据的建模

过离散二项数据的建模主要采用两种方法:Beta-二项分布与拟二项(quasi-binomial)分布。Beta-二项分布假设每个历史对照组的二项比例源自Beta分布,其方差表达式明确包含类内相关系数(intra-class correlation coefficient, ρ),且ρ取值范围为[0,1)。拟二项方法则通过分散参数φ恒定放大方差。当各组实验单元数相等时,两种模型可相互转化。需注意,从生物学角度而言,负相关(导致低离散)的情形极不可能,因此本研究限制φ≥1及ρ≥0。

历史对照限的计算方法

HCL的计算基于历史对照组中事件发生数(如患瘤动物数)及实验单元总数(如动物总数),旨在以覆盖率1-α预测未来观测值(如并发对照组结果),并确保 equal tail probabilities(即上下尾概率均为α/2)。过离散二项数据的偏态程度受三个因素影响:二项比例π接近0或1、研究间过离散程度增加、组内样本量减小。

启发式HCL及其缺陷

尽管多篇文献反对,历史范围法(即HCD最小值与最大值)仍在毒理学常规中使用。该方法试图覆盖所有可能取值,而非中央95%分布,且无法处理组间样本量差异。np图限假定数据符合同一二项分布且可正态近似,忽略参数估计 variability 及过离散,亦不保证 equal tail probabilities。均值±kSD法启发式允许过离散,但同样假设固定组间样本量,且无法处理偏态分布。

Bootstrap校准预测区间

频率学派预测区间基于正态近似,但可能因偏态或历史研究数较少而导致覆盖不足。Bootstrap校准算法通过参数化抽样 individually 调整上下限系数,以适配分布偏态并提升覆盖概率。校准后的拟二项及Beta-二项预测区间分别通过 quasi_bin_pi() 与 beta_bin_pi() 函数实现(R包predint)。

贝叶斯建模方法

贝叶斯方法通过后验预测分布直接估计未来观测值。分层模型采用Beta先验(均值-精度参数化),但需弱信息先验以稳定估计;广义线性混合模型(GLMM)则通过 logit 连接函数包含固定截距及随机效应。两种方法均通过MCMC抽样,但分层模型在应用中出现严重收敛问题,尤其在过离散高或历史研究数少时。

真实HCD特性与模拟设计

研究分析了两类真实HCD:微核试验(MNT)及长期致癌性研究(LTC)。MNT数据组间样本量固定(n=18,000),比例低(0.001–0.1),过离散高(φ up to 500);LTC数据(n=50 per group)比例中等(0.2–0.5),过离散 moderate(φ up to 3)。模拟针对不同历史研究数(H=5,10,20,100)、比例及过离散组合评估覆盖概率。

模拟结果

启发式方法中,历史范围覆盖概率接近1(过于保守),np图在过离散高时覆盖骤降(<0.2),均值±2SD在偏态分布中无法保证 equal tail probabilities。频率学派Bootstrap校准区间在多数设置中覆盖最近名义水平(95%),尤其Beta-二项区间在无过离散时表现最佳;拟二项区间略保守,但历史研究数增加后改善。贝叶斯GLMM区间整体保守但仍可用;分层模型则因收敛问题及覆盖不足而不推荐。

实例应用

以NTP雄性B6C3F1小鼠死亡率HCD(n=10 studies)为例,计算各类HCL。结果显示,历史范围及np图区间最窄,均值±2SD与贝叶斯分层模型结果相似,而Bootstrap校准区间及贝叶斯GLMM区间更宽(适配过离散)。结果印证了模拟结论。

讨论与展望

贝叶斯分层模型需案例特调先验,不利于实际应用;Bootstrap校准则为灵活通用的预测区间计算工具。过离散反映研究间变异,可能源于可控(如操作差异)及不可控(如生物学变异)因素,其可接受程度需依具体研究评估。未来工作将扩展Bootstrap校准至更复杂模型(如多水平GLMM)及同步预测区间,并探索个体水平数据(如微核试验中孔间变异)的分析方法。

结论

对于过离散二项数据,启发式HCL无法控制统计误差,不应继续使用;Bootstrap校准预测区间覆盖概率最优,可通过R包predint便捷实现;贝叶斯GLMM方法亦具潜力;高过离散与低比例导致数据零值增多时,预测区间实质上退化为97.5%上限,此为数据特性而非方法缺陷。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号