《Computational Statistics & Data Analysis》:Pure Error REML for Analyzing Data from Multi-Stratum Designs
编辑推荐:
提出纯误差REML方差分量估计方法,适用于多分层设计,通过全处理模型实现,相比传统REML更稳健尤其在模型误拟合时,且易于标准软件实现。
Steven G. Gilmour|Peter Goos|Heiko Gro?mann
伦敦国王学院数学系,英国伦敦斯特兰德,WC2R 2LS
摘要
自从响应面方法论诞生以来,就建议设计中应包含重复点,以便获得方差的纯误差估计值,并用这些估计值来提供因素效应的可靠标准误差估计。在具有多个层次的设计中,例如分割区组设计和分割-分割区组设计,如何获得方差分量的纯误差估计值就不那么明显了,而流行的残差最大似然(REML)估计方法并不能提供纯误差估计。通过将每个因素水平组合视为一个离散处理,可以使用完整处理模型来获得方差分量的纯误差REML估计方法。这种方法使用标准软件即可轻松实现,并且通过应用基于纯误差REML估计的Kenward-Roger校正,可以获得固定效应估计的更准确的标准误差。我们使用几个数据集来说明这种新方法,并将其性能与标准REML方法进行了比较。当假设的响应面模型正确时,两种方法的结果是可比的;但在模型设定错误的情况下,新方法的表现更为稳健。
引言
越来越多的人认识到,许多工业和实验室实验应该采用分割区组结构等进行,特别是当某些因素的水平比其他因素更难设置时。在实验中,实验者在控制下应用由处理因素水平组合构成的多个“处理”。可以应用处理的最小单位称为“实验单元”,而观察响应的单位称为“观测单元”。实验单元和观测单元通常是相同的,为了简化,在本文的其余部分我们将假设这种情况。在最简单的多层次情况下,我们定义一个或多个易于设置的因素,其水平可以为每个实验单元重新设置(通常称为子区组或试验次);以及一个或多个难以设置的因素,其水平只能为实验单元组重新设置(通常称为整个区组)。然后选择一个设计,使得难以设置的因素的水平组合随机分配到整个区组中,而易于设置的因素的水平组合随机分配到整个区组内的试验次中。这样的设计称为分割区组设计,分割区组设计的整个区组水平和子区组水平就是该设计的两个所谓“层次”。
同样的原理可以很容易地扩展到两个以上的层次,这些层次可以以任何组合进行嵌套或交叉,形成所谓的多层次设计。只要这些层次是连续的,就可以使用线性或非线性混合模型来适当地分析这些实验的响应数据,这些模型包括设计中每个层次的随机效应和处理对响应的固定效应。通常,处理效应通过多项式响应面模型来建模。对于这样的响应面模型,最常用的估计方法是残差最大似然(REML),它通过最大化响应在正交于假设模型的子空间上的投影的似然来估计方差分量;以及经验广义最小二乘(GLS),在REML方差分量估计值已插入的情况下来估计固定参数。这种REML/GLS方法在几个统计计算软件包中都有提供,其结果与正交多层次设计的方差分析相同,并且具有良好的渐近性质。Lettsinger等人(1996年)首次系统地考虑了工业分割区组响应面实验,推荐了这种分析方法。
然而,在分割区组实验中经常观察到整个区组或块方差分量被估计为零。Goos等人(2006年)表明,即使方差分量的真实值远非零,这种情况也很可能发生。Gilmour和Goos(2009年)讨论了这个问题,并建议使用关于方差分量的先验信息作为合理的替代方法。这种方法效果很好,但需要专门的软件和仔细的先验信息指定。这种先验信息必须足够充分,以弥补数据中关于整个区组或块方差分量的信息不足。
与其采用需要指定先验分布的贝叶斯分析,实验者可能更倾向于基于尽可能少假设的稳健分析。特别是,对假设的响应面模型的不匹配具有鲁棒性的分析是可取的。Vining等人(2005年)和Vining与Kowalski(2008年)在这方面迈出了重要一步,他们推荐了一种基于从重复点获得的每个方差分量的纯误差估计的简单分析方法,该方法具有这种鲁棒性。Vining与Kowalski(2008年)建议所有推断都使用这些纯误差估计值进行。然而,他们推荐的方法仅适用于特定类型的设计,并且仅使用整个区组内的重复点和完全重复的整个区组来获得纯误差估计。Gilmour和Trinca(2000年)在块响应面设计的背景下表明,这种纯误差的定义比完全随机设计中使用的定义更为狭隘。完全随机设计中的定义只需要使用完整处理模型。由于分割区组设计也可以被视为不完全块设计,其中一些主效应与块完全混杂,因此Gilmour和Trinca(2000年)的论点也适用于分割区组设计和更一般的多层次设计。因此,我们在本文中介绍的方法适用于块响应面设计、分割区组设计和任何多层次设计。
本文的目的是普遍探讨方差分量的纯误差估计的使用。我们通过结合使用REML和完整处理模型(而不是多项式响应面模型)来实现这一点。我们称这种方法为纯误差REML,它通过最大化响应在正交于完整处理模型的子空间上的投影的似然来产生方差分量的纯误差估计。这些估计值不依赖于假设的响应面模型形式。这使得许多在完整区组内没有明确重复或重复整个区组的设计也能使用纯误差估计进行分析。此外,即使有这样的重复,纯误差REML也比Vining和Kowalski(2008年)的方法更能充分利用数据中的信息。更具体地说,纯误差REML还利用其他类型的重复处理来获得更精确的方差分量估计。在获得方差分量的纯误差REML估计后,我们使用这些估计值在经验GLS中进行分析,从而获得可用于分析任何多层次数据的稳健分析。这种分析在标准软件中易于实现,因为它仅使用REML优化和广义最小二乘估计的矩阵形式。
本文讨论的模型和使用的符号在第2节中进行了说明。第3节介绍了一种修改后的REML/GLS方法,并在第4节应用于一些数据集。第5节研究了新方法的性质,无论假设的多项式响应面模型是否正确。第6节讨论了一些实际问题。
章节摘录
模型和符号
我们将任何将试验次分为组的因素称为“阻塞因素”,因此分割-分割区组设计中的块、整个区组和子区组都被称为阻塞因素。在任何实验设计中,阻塞因素都是随机化的限制,因此某些处理组合必须出现在同一块内的试验次中。除非每个块都包含相同的处理组合,否则一些用于比较处理的信息会与块效应混杂在一起。
估计
在响应面研究中,主要关注的是估计方程(2)中的多项式响应面模型中的固定效应$β$。如果方差分量的比率已知,可以使用广义最小二乘(GLS)来最优地估计这些比率,从而得到