超越Pearson检验的分类数据分析：基于距离协方差(Distance Covariance)与能量距离(Energy Distance)的方法

《Biometrical Journal》：Tests for Categorical Data Beyond Pearson: A Distance Covariance and Energy Distance Approach

【字体：大中小】 时间：2026年06月10日 来源：Biometrical Journal 1.8

编辑推荐：

　　摘要：分类变量在生物医学研究中至关重要。当考虑两个分类变量时，常需检验它们是否统计独立。本文指出经典方法——如Pearson卡方检验（Pearson's chi-squared test）与G检验（G-test）——的局限性，并提出基于距离的检验策略以克服这些

摘要：分类变量在生物医学研究中至关重要。当考虑两个分类变量时，常需检验它们是否统计独立。本文指出经典方法——如Pearson卡方检验（Pearson's chi-squared test）与G检验（G-test）——的局限性，并提出基于距离的检验策略以克服这些缺陷。研究人员首先针对经典的二维列联表（contingency table），在表征一般统计独立性的关联度量——距离协方差（Distance Covariance, dCov）框架下发展理论。随后将相同基本思想应用于一维表，即离散分布的拟合优度检验（Goodness of Fit Test），为此借助名为能量距离（Energy Distance）的类似统计量。研究人员证明该方法具有理想的理论性质，且可在无重采样（resampling-free）情况下校准检验统计量的零分布。通过模拟及真实数据示例，展示了该方法在生物统计学实践中的良好表现。

《Biometrical Journal》论文解读：基于距离协方差与能量距离的分类数据非Pearson假设检验方法

一、研究背景与开展该项研究的必要性

分类变量的独立性检验（如R×C列联表的卡方检验）与离散分布拟合优度检验是生物医学统计中最常执行的假设检验之一。传统方法以Pearson卡方检验及其似然比版本G检验为代表，但其依赖"期望频数≥5"的渐近近似条件，在单元格频数不平衡、稀疏或期望计数偏小时，卡方近似失效，导致Ⅰ类错误率失控或检验过于保守。Fisher精确检验虽可处理小样本2×2表，却难以推广至高维列联表及拟合优度场景。此外，经典Pearson统计量本质是加权平方和（∑(O-E)²/E），其"除以期望值"的归一化在类别概率差异大时引入偏倚。因此，亟需一种不依赖苛刻渐近条件、能刻画一般统计独立性且具有可解析零分布的新检验框架。本文（Castro-Prado et al., 2026）发表于《Biometrical Journal》，提出基于距离协方差（Distance Covariance, dCov）的分类变量独立性检验，及基于能量距离（Energy Distance）的离散分布拟合优度检验，并证明其在无置换/自举重采样的情形下可通过加权卡方二次型精确近似零分布。

二、主要关键技术方法概述

研究人员在分类空间上赋予离散度量（discrete metric，即不同类别间距离为1，同类别距离为0），将分类变量映射到单位正交基后使用经典dCov公式，导出独立性检验统计量T_dCov=∑_i,j(n_ij-n_i·n_·j/n)²（无分母归一化，区别于Pearson χ²=∑(O-E)²/E）。证明在原假设下n·T_dCov依分布收敛于∑_kλ_k·Z_k²（Z_k～i.i.d. N(0,1)，λ_k为矩阵M=A?B的特征值，A、B分别为行、列边缘多项分布的协方差矩阵）。拟合优度检验采用能量距离导出的统计量E_n=∑_i(O_i-np_i)²，其零分布为∑_k=1^c-1λ_k·χ₁²（λ_k来自理论频数的多项协ariance矩阵）。p值通过Farebrother算法计算加权χ²分布函数获得，无需置换。模拟研究采用Berrett & Samworth (2021)的指数衰减边缘列联表模型（含扰动参数ε控制偏离独立性程度），样本量n=500，重复10⁴次；拟合优度部分以哈迪?温伯格平衡（Hardy–Weinberg Equilibrium, HWE）双等位及三等位SNP基因型频率为理论分布进行校验。真实数据来自西班牙西北部427例精神分裂症队列（Facal et al., 2022），含慢性病严重度（4级）×多基因风险评分（Polygenic Risk Score, PRS）三分位数列联表，及SNP rs9545047（双等位）与rs2594292（三等位）基因型计数用于HWE拟合优度检验。

三、研究结果

2 两分类变量独立性的距离协方差检验（The Distance Covariance Test of Independence Between Two Categorical Variables）

研究人员定义基于离散度量的经验距离协方差为dCov_n²(X,Y)=∑_i=1^I∑_j=1^J(n_ij/n-n_i·/n·n_·j/n)²，乘以n²得检验统计量U_n=n·∑_i,j(n_ij-n_i·n_·j/n)²。Theorem 2.1证明：若X⊥Y，则U_n→_d∑_k=1^(I-1)(J-1)λ_k·χ_1,k²，其中λ_k为M_X,Y=(D_I^1/2P_XD_I^1/2)?(D_J^1/2P_YD_J^1/2)的非零特征值，D_I=diag(p_i·)，P_X=I_I-1_I1_I^T/I为中心化投影阵。用观测边缘频率估计p_i·、p_·j后代入求λ_k，可用Imhof/Farebrother法算p值。结论：该统计量在稀疏/不平衡列联表下Ⅰ类错误率控制优于Pearson χ²，功效（power）与USP检验（Berrett & Samworth, 2021）相当，但无需999次置换故运算速度快三个数量级。

3 离散分布拟合优度的能量检验（The Energy Test for Goodness of Fit to a Discrete Distribution）

研究人员定义基于离散度量的能量距离统计量为E_n=2∑_i=1^cO_i(1-np_i/O_i)-∑_i,j(δ_ij-1)·(O_iO_j/n²+np_ip_j)，化简后为E_n=∑_i=1^c(O_i-np_i)²。Theorem 3.1证明：若样本来自指定离散分布Π=(p₁,...,p_c)，则n·E_n/n →_d∑_k=1^c-1μ_k·χ_1,k²，μ_k为Σ=diag(p_i)-p_ip_j-diag(p_i²)+p_ip_j（简化后即为多项协方差阵diag(p_i)-p_ip_j）的非零特征值。因理论p_i已知，μ_k可直接算出无需估计。结论：在双等位及三等位HWE拟合优度检验中，能量距离检验Ⅰ类错误率校准良好，功效与Pearson χ²相近或更优，尤其在小/偏斜期望频数时表现稳健。

4 模拟研究（Simulation Study）

4.1 独立性距离协方差检验：在指数衰减边缘模型（I=J=5, n=500）下，名义α=0.01,0.05,0.1时本方法经验Ⅰ类错误率落在95%置信带内；Pearson χ²显著偏离（过高拒真），G检验过于保守。随扰动参数ε增大（远离H₀），本方法与USP检验功效曲线几乎重合且高于Fisher精确检验、Pearson及G检验。

4.2 拟合优度能量距离检验：在HWE双等位（p∈{0.3,0.5}）和三等位（p_A=0.6,p_B=0.3,p_C=0.1）模型下，本方法与Pearson χ²均良好控制Ⅰ型错误；在偏离HWE的2S/2K及3S/3K模型下两者功效相当，少数情形Pearson略高但差异微小。

5 真实数据分析（Real Data Analyses）

5.1 独立性检验：慢性病严重度(4级)×PRS三分位数列联表(N=427)，距离协方差法p=0.045，USP p=0.046，Pearson χ²p≈0.025，G检验p≈0.022，Fisher精确检验p=0.024——各法均在α=0.05水平拒绝独立，提示PRS分层与疾病慢性严重度有关。

5.2 拟合优度检验：SNP rs9545047(AA:139, CA:232, CC:56)，按欧洲人群(GnomAD)等位频率算HWE期望，能量距离p=0.027，Pearson χ²p=0.027，拒绝HWE（符合其与精神分裂症关联的先验知识）；三等位SNP rs2594292，能量距离p=0.24，Pearson p=0.07，均未拒绝HWE。

四、讨论与结论总结（翻译并浓缩论文Conclusion部分）

研究人员提出了一种基于距离协方差的分类变量一般性独立性的新型检验（适用于任意维度列联表，推广了此前仅限3类别情形的研究），以及一种基于能量统计的离散分布拟合优度检验——据研究人员所知后者系首次在文献中给出。独立性检验统计量代数形式类似于Pearson χ²但无(O-E)²/E中的分母E，其与USP检验（Berrett & Samworth, 2021）的U-statistic形式等价但不依赖置换而用导出的渐近零分布（加权χ²型）。拟合优度检验的零分布系数由原假设完全确定无需plug-in估计。模拟与真实生物医学数据显示方法具有良好的Ⅰ类错误校准与统计功效。未来工作将扩展至分类—连续变量关联性检验（Edelmann et al., 2024）。

最终结论：本文所提距离协方差独立性检验与能量距离拟合优度检验克服了经典Pearson系检验在稀疏/不平衡分类数据下的缺陷，具备可证明的渐近零分布（无需重采样），计算高效，适用于生物统计实践中的列联表分析与HWE质控等场景。

热点排行