考虑输入不确定性的层级条件森林元前沿分析方法

《Array》：Hierarchical conditional forests for meta-frontier analysis under input uncertainty

【字体：大中小】 时间：2026年02月08日 来源：Array 4.5

编辑推荐：

　　传统的数据包络分析（DEA）元前沿基准方法将观测输入视为精确值，忽视了实际中测量噪声的普遍存在。本研究提出一种决策中心替代方案，通过层次条件森林学习给定输出和组标签的输入分布，进而通过抽取非负伪输入并重新计算组和元前沿来传播输入不确定性。该森林在组间共享分裂并通过叶向矩的部分池化稳定小样本或异质组，无需强加共同的无效定律。最终提供可解释的区间和概率用于效率距离和技术缺口比，反映了输入重新测量的现实不确定性。与单次计算基准相比，该方法提供了更保守的差距评估，并以可直接用于政策阈值和跨组比较的格式表达不确定性。

在评估不同群体的生产绩效时，元前沿分析已成为一个标准工具。每个群体都在其自身的技术下运营，而一个汇总的元技术则包络了所有群体，由此产生的技术缺口比（TGR）可以表达一个决策单元相对于其自身群体前沿，距离元前沿有多远。在实际应用中，这通常通过可变规模报酬下的数据包络分析（DEA）以非参数方式实现：在观测数据上计算组前沿和元前沿，并为每个决策单元计算一个单一的TGR。这种方法因其简单和透明而具有吸引力，但它隐含地将观测到的输入视为精确值。

然而在许多实际场景中，输入往往受到测量误差、预汇总和瞬时冲击的影响。工作时间来自行政数据源，资本存量是估算的，能源和材料使用来自传感器读数，数据录入也可能存在噪声。由于DEA前沿是由观测值本身构建的，输入的微小扰动就可能移动分段线性包络的各个面，改变参考集，翻转哪些约束是起作用的。因此，即使产出保持不变，由此产生的效率得分和技术缺口比也可能发生显著变化。在观测到的输入上进行单次计算，可能带来对接近元前沿的乐观评估和脆弱的排名，特别是在小规模或异质性强的群体中。

这项研究的核心目标是为当前面板数据所做的决策提供有意义的“水平不确定性”。研究人员固定观测到的产出，学习一个给定产出的输入的条件分布，然后将输入噪声通过组和元基准评估进行传播，具体做法是重复从学习到的规律中抽取伪输入，并重新在每个伪面板上包络前沿。研究人员报告的距离、元距离和技术缺口比的离散度因此是一种水平不确定性：在给定观测产出和拟合的条件分布下，由输入的现实重测量所引起的得分值本身的变异性。这与频率学派意义上的抽样不确定性（源于从超总体中重复重采样决策单元）不同，也不同于由参数噪声-无效分解产生的对未观测“真实无效”的置信区间。

从方法论上，本研究引入了一种层次条件森林，用于在学习给定产出的输入分布时处理组异质性。该模型是一个训练在堆叠的输入-输出向量上的共享分裂密度森林，它结合了特定组矩的经验贝叶斯部分池化以稳定支持有限的叶子，以及一个仅输出的门控规则以防止输入信息泄露到叶子选择中。拟合的森林导出一个具有闭式高斯条件分布的有限混合模型；截断到非负象限确保了输入的可行性。在每次重复中，研究人员重建组前沿和元前沿，允许参考集和约束条件随伪面板而变化。蒙特卡洛均值、百分位数区间和事件概率总结了水平不确定性，而简单的诊断指标（如重复间排名与平均排名之间的一致性）则传达了在重新基准评估下结论的稳定性。

本研究的贡献主要有四个方面。第一，研究人员形式化并实施了针对DEA距离和技术缺口比的水平不确定性，并阐明了其与抽样不确定性以及围绕单个固定得分的区间的区别。第二，开发了一个实用的“学习+重包络”流程，将随机输入建模与确定性DEA评估解耦，并且能够容纳异质组而无需强加共同的无效定律。第三，为研究总结提供了统计基础，通过建立DEA距离函数的可测性，并在温和的有限方差条件下给出蒙特卡洛一致性。第四，展示了重复计算产生的数组如何转化为决策分析：违反阈值的概率、高排名成员资格的稳定性，以及使不确定性具有可操作性的交通灯式报告。

与现有的DEA推断相比，本研究视角是互补的。Bootstrap方法和大样本理论将推断附加在观测输入上的单次计算，或依赖于噪声和无效的参数分解。而研究人员则通过重包络，明确地传播了学习到的“给定输出的输入”规律，使得前沿本身可以随着输入而移动。这两种观点可以通过将本研究的内循环包裹在一个重新拟合条件模型的外部Bootstrap中来结合，从而在目标需要时同时纳入抽样不确定性和水平不确定性。

论文发表在《Array》期刊。

为了开展研究，作者主要运用了以下关键技术方法：首先，使用分层条件森林来学习给定产出和组标签的输入的条件分布，该模型在组间共享分裂，并通过经验贝叶斯对叶级别矩进行部分池化以稳定估计。其次，采用蒙特卡洛重采样方法，从拟合的森林所诱导的条件分布中重复抽取非负伪输入，形成多个“伪面板”。最后，对每个伪面板重新应用可变规模报酬下的数据包络分析来计算组前沿和元前沿，从而评估输入不确定性对效率距离和技术缺口比的影响。整个流程将灵活的随机输入建模与确定性的DEA前沿计算解耦。

3.1. 经典元前沿与估计问题

研究人员考虑了G个异质群体。对于每个决策单元，x ∈ R₊^m表示m维非负输入向量，y ∈ R₊^s表示s维非负输出向量，其拼接v = (x, y) ∈ R₊^d。任何技术P ? R₊^d和任何可行决策单元 (x, y) ∈ P，其面向输入的效率定义为δ(x, y|P) = inf{δ > 0: (δx, y) ∈ P}，距离函数D(x, y|P) = 1/δ(x, y|P)。当 (x, y) 属于组g时，元前沿技术缺口比为TGR(x, y) = D(x, y|P_g)/D(x, y|P_M) = δ(x, y|P_M)/δ(x, y|P_g) ∈ (0, 1]。

3.2. 观测模型、符号与基本假设

研究人员将输出视为固定，并将给定输出的输入建模为随机变量：X|Y ～ p(x|y)。所有不确定性陈述均以Y和拟合的条件分布p(x|y)为条件，并总结了由输入噪声引起的水平不确定性，而非DEA估计量的频率学派抽样变异性。基本假设包括：每组技术P_g是适当的、封闭的、可自由处置的，元技术P_M包络所有组技术；DEA仅作为伪数据上的评估映射使用；条件抽取是独立同分布的；所有协方差矩阵都经过岭正则化以保证稳定性；并假设在学习的条件分布下，距离和TGR函数具有有限的二阶矩，以确保蒙特卡洛总结的稳定性。

3.3. 密度树与密度森林

研究人员在堆叠样本Z = [(x₁, y₁), …, (x_n, y_n)]^?上拟合密度森林。密度树通过轴对齐分割递归划分空间以提高局部高斯性。在包含索引集S的节点处，候选分割由坐标k和阈值t给出，产生左右子节点S_L和 S_R。通过小岭参数ε定义岭增强样本协方差矩阵 Σ?(S) = cov({z_i: i ∈ S}) + εI_d。选择分割(k, t)以最大化高斯熵信息增益I(S; k, t) = log det Σ?(S) ? (|S_L|/|S|) log det Σ?(S_L) ? (|S_R|/|S|) log det Σ?(S_R)，这等价于在局部高斯性假设下微分熵的减少。

3.4. 层次条件森林

层次条件森林扩展了标准密度森林，以纳入组异质性。其关键创新在于：首先，共享分裂规则：森林在所有组的拼接数据上训练，确保跨组定义一致的邻域，这对于后续的跨组比较至关重要。其次，部分池化叶矩：在叶子层面，对于每个组g，计算样本均值μ?_g和协方差 Σ?_g。然后，通过经验贝叶斯将这些矩向全局矩收缩，形成收缩估计 μ?_g和 Σ?_g。这稳定了小样本组或数据稀疏叶子的估计。最后，仅输出门控：分裂标准仅基于输出变量y，防止输入x的信息影响叶子分配，从而确保学习的条件分布p(x|y)的有效性。拟合的森林诱导出一个有限混合模型，其中每个叶子?对应一个权重w_?(y)，和组特定的高斯分布N(μ?_g,?, Σ?_g,?)。对于一个新的输出y，其条件分布p(x|y)是这些叶子高斯分布的混合。

3.5. 截断抽样与重包络协议

从拟合的层次条件森林中获得条件分布p(x|y)后，研究通过以下步骤传播输入不确定性：首先，条件抽样：对于每个决策单元i，给定其观测输出y_i，从条件分布p(x|y_i)中抽取一个伪输入向量x^b_i。为确保可行性，对抽样结果进行截断，强制执行非负性x^b_i≥ 0。重复此过程B次，产生B个“伪面板”{X^b, Y}^B_b=1。其次，重包络：对每个伪面板b，使用标准DEA（可变规模报酬）分别计算每个组g的组前沿P^DEA_g(X^b_g, Y_g)和元前沿P^DEA_M(X^b, Y)。然后，计算每个决策单元i在面板b上的组效率距离δ^b_i,g、元效率距离δ^b_i,M和技术缺口比TGR^b_i= δ^b_i,M/δ^b_i,g。最后，总结不确定性：对于每个决策单元i，根据B次重复计算得到的{δ^b_i,g}、{δ^b_i,M}和{TGR^b_i}序列，计算蒙特卡洛均值、标准差、百分位数区间（如2.5%和97.5%），以及事件概率（如P(TGR_i< 0.8)）。

3.6. 统计与几何性质

为确保所提出方法的理论可靠性，论文建立了一系列性质。关于可测性，论文证明输入导向的距离函数δ(x, y|P)作为(x, y)的函数，在适当的假设下是可测的，这保证了后续蒙特卡洛估计的合法性。关于蒙特卡洛一致性，在学习的条件分布下，若距离和TGR具有有限的二阶矩，则由蒙特卡洛方法计算的样本均值、分位数和经验分布函数，在重复次数B趋于无穷时，几乎必然收敛到其总体对应值。此外，论文还探讨了一些纯几何性质。例如，引理10证明了距离函数的单调性：若技术集合满足P ? Q，则对于任何可行的(x, y)，有δ(x, y|P) ≥ δ(x, y|Q)。这一性质直接保证了技术缺口比TGR = δ(x, y|P_M)/δ(x, y|P_g) ≤ 1，因为元技术P_M包络了组技术P_g。另一个有用的简化是针对单产出情况（s=1），此时距离函数的计算可以简化为一个锥优化问题，从而可能提供更紧的界限。

在结论与讨论部分，本研究明确了所提出的层次条件森林框架的核心贡献与意义。它首次为数据包络分析和元前沿分析中的“水平不确定性”提供了严格的操作化定义和实用计算流程，将决策关注的焦点从单一得分的不确定性转移到了得分值本身在输入噪声下的变异范围。这种方法与传统的Bootstrap推断形成互补，后者主要关注围绕一个固定估计的抽样变异性，而本研究则允许前沿的参考集和结构随着输入测量而变化，从而更贴近管理决策的现实。

本方法的重要意义在于其决策导向。它产生的输出，例如“决策单元的技术缺口比有90%的概率低于0.85”，或“在考虑了输入噪声后，该单元仍保持在效率前10%的概率为70%”，可以直接用于设定政策阈值、进行稳健的跨组比较或优先排序。应用于2019年宾夕法尼亚世界表的实证分析表明，相较于传统单次计算，本研究的方法能提供更保守的差距评估，尤其对于中等收入组，揭示了在忽略输入噪声时可能被掩盖的风险。

研究的范围是实用主义的，它固定产出，将DEA纯粹视为伪数据上的评估映射，并广泛使用协方差正则化来稳定估计。它不假设组间存在共同的无效分布，从而适用于广泛的异质群体场景。未来工作可以将本研究的“水平不确定性”传播内循环，嵌入到一个外部重采样（如Bootstrap）框架中，以同时考虑决策单元抽样和输入测量两方面的不确定性，为绩效基准评估提供一个更全面的不确定性量化工具箱。

热点排行

新闻专题