基于Kibria-Lukman估计量的Poisson修正准Lindley回归方法用于多重共线性数据

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Scientific African》：A Poisson-Modified Quasi-Lindley Regression Approach for Multicollinear Data using Kibria–Lukman Estimator

【字体：大中小】 时间：2026年06月14日 来源：Scientific African 3.3

编辑推荐：

　　基于Poisson分布的计数回归模型广泛用于非负整数响应，但当数据呈现过离散和多重共线性时，其表现往往较差，导致方差膨胀和最大似然估计不稳定。本文基于处理过离散计数的Poisson修正准Lindley回归模型（PMQL-RM）的灵活性，提出了一种基于Kibri

基于Poisson分布的计数回归模型广泛用于非负整数响应，但当数据呈现过离散和多重共线性时，其表现往往较差，导致方差膨胀和最大似然估计不稳定。本文基于处理过离散计数的Poisson修正准Lindley回归模型（PMQL-RM）的灵活性，提出了一种基于Kibria–Lukman（KL）偏倚方案的PMQL-RM的新型岭型收缩估计量。由此得到的Poisson修正准Lindley Kibria–Lukman估计量（PMQL-KL）在PMQL-RM框架内结合了岭结构和Liu结构。研究人员推导了其偏倚、方差-协方差矩阵和矩阵均方误差（MMSE），并基于MMSE与PMQL最大似然估计量（PMQL-MLE）、岭估计量（PMQL-RRE）、Liu估计量（PMQL-LE）和Liu型估计量（PMQL-LTE）进行了理论比较。获得了PMQL-KL在更小MSE矩阵意义上优于这些竞争估计量的充分条件，并提出了一个数据驱动的KL偏倚参数选择准则。在样本量、预测变量数目、相关水平和离散参数设置的范围内进行了全面的Monte Carlo模拟研究。结果表明，PMQL-KL一致地达到最小的标量MSE，尤其是在严重多重共线性下相对于PMQL-MLE和现有收缩估计量的增益显著。对过离散的瑞典足球比分数据的实证应用证实，PMQL-KL在保持协变量效应实质性解释的同时，产生了更稳定的系数估计和最低的经验MSE。这些发现表明，在PMQL回归框架中，PMQL-KL是处理具有多重共线性的过离散计数数据的一个稳健且高效的替代方案。

**论文解读文章**

**研究背景与问题**

在流行病学、生态学、保险和公共卫生等应用领域中，响应变量常表现为非负整数计数，且通常具有右偏性和过离散（overdispersion）特征，即方差大于均值。经典的Poisson回归模型因假定等离散（equidispersion）而无法处理这种过离散，导致标准误低估、检验统计量膨胀以及推断不可靠。为缓解该问题，学者们提出了多种过离散Poisson型模型，其中Poisson修正准Lindley回归模型（PMQL-RM）通过引入两个离散参数（θ₃和θ₂）灵活捕获过离散，并已在广义线性模型（GLM）框架中得到应用。然而，实际数据中预测变量间的多重共线性（multicollinearity）会严重恶化PMQL最大似然估计量（PMQL-MLE）的性能，使其信息矩阵病态、方差膨胀且系数估计不稳定。尽管已有学者提出了PMQL岭估计量（PMQL-RRE）和PMQL Liu估计量（PMQL-LE）等收缩估计量来缓解多重共线性，但仍存在进一步提升均方误差（MSE）性能的空间。基于此，研究人员旨在利用Kibria–Lukman（KL）偏倚方案改进Liu型估计量，构造一种新的Ridge-type收缩估计量，以在过离散与多重共线性并存时实现更优的偏差-方差权衡。

**研究内容与结论**

研究人员将KL估计量扩展至PMQL-RM框架，定义了Poisson修正准Lindley Kibria–Lukman估计量（PMQL-KL），并推导了其偏倚向量、方差-协方差矩阵和矩阵均方误差（MMSE）。通过与PMQL-MLE、PMQL-RRE、PMQL-LE及PMQL-LTE（Liu型估计量）的MMSE理论比较，获得了PMQL-KL在MMSE意义上优于竞争估计量的充分条件。基于MMSE表达式，提出了一种数据驱动的偏倚参数选择公式。通过Monte Carlo模拟在多种样本量（n=30,75,200）、预测变量数（p=3,7）、相关水平（r=0.90,0.95,0.99）和离散参数设置下评估有限样本性能，所有场景下PMQL-KL均一致地获得最小标量MSE，尤其在严重多重共线性（r=0.99）和高维度（p=7）时优势更为显著。对过离散的瑞典足球比分数据（242个观测值，6个赔率相关协变量）的实证应用表明，PMQL-KL产生最低的经验MSE（0.118），远低于PMQL-MLE（0.371）和其他收缩估计量，同时保持了系数的符号和实质性解释。该论文发表在《Scientific African》。

**关键技术方法**

研究人员采用Monte Carlo模拟和实证数据验证两种主要方法。模拟中，协变量按McDonald和Galarneau（1975）方法生成，通过参数r控制多重共线性程度；响应变量从PMQL分布中生成，并利用逆变换法结合给定的均值μ_i=exp(x_i^Tβ)和离散参数（θ₃,θ₂）。仿真重复5000次，计算平均MSE。实证数据来源为瑞典足球联赛2012年数据（Allsvenskan），公开于football-data.co.uk，包含242条观测，响应变量为全场主队进球数，协变量为六种赔率指标。所有估计量的MSE通过参数估计值与真实值之差计算。

**研究结果**

**PMQL-RM（Poisson修正准Lindley回归模型）**
研究人员定义了PMQL-RM的概率密度函数（pdf）及均值和方差表达式，并将模型通过log链接函数嵌入GLM框架。在最大似然估计中采用迭代加权最小二乘法（IWLS）得到PMQL-MLE，其渐近方差-协方差矩阵由信息矩阵的逆给出。当多重共线性严重时，信息矩阵特征值变小，导致MSE膨胀。

**The proposed estimator（提出的估计量）**
研究人员基于Kibria–Lukman（KL）偏倚方案定义PMQL-KL估计量为β^{^}_PMQL-KL = (U+kI_p)^?1(U?kI_p)β^{^}_PMQL-MLE，并推导其MMSE和MSE表达式。通过引理1和引理2证明其正定性条件。

**Comparison between β^{^}_PMQL-KL and β^{^}_PMQL-MLE（PMQL-KL与PMQL-MLE的比较）**
定理1证明：当k>0时，MMSE(β^{^}_PMQL-MLE)?MMSE(β^{^}_PMQL-KL)为正定矩阵，即PMQL-KL在MMSE准则下优于PMQL-MLE，条件为β^T[G?I_p][(Λ^?1?GΛ^?1G^T][G?I_p]β<1。

**Comparison between β^{^}_PMQL-KL and β^{^}_PMQL-RRE（PMQL-KL与PMQL-RRE的比较）**
定理2给出：当k>0时，PMQL-KL优于PMQL-RRE当且仅当λ_max[(kΛ^?1+I_p)^?1] [k(kΛ^?1+I_p)^?1Λ^?1(kΛ^?1+I_p)]^?1<1，通过矩阵正定性分析得到该条件可满足。

**Comparison between β^{^}_PMQL-KL and β^{^}_PMQL-LE（PMQL-KL与PMQL-LE的比较）**
定理3：在k>0且0T[G?I_p]^T[Z+(1?d)²(Λ+I)^?1ββ^T(Λ+I)^?1][G?I_p]β<1，其中Z=(Λ+dI_p)(Λ+I_p)^?1?GΛ^?1G^T被证明为正定。

**Determination of shrinkage parameter（收缩参数的确定）**
通过对MSE关于k求导并令导数为零，得到最优k的解析表达式：k_optimal = 1/(2?_j² + 1/λ_j)，其中?_j为变换后系数的元素，λ_j为特征值。实际中用估计值?^{^}_j和λ_j代入计算。

**Simulation study（模拟研究）**
在三种离散参数设置（θ₃=0.08,θ₂=0.5; θ₃=0.17,θ₂=1; θ₃=0.9,θ₂=1.8）下，所有估计量的MSE均随相关水平增加而上升，随样本量增大而下降。PMQL-KL在所有配置中均获得最小MSE，且排序稳定为PMQL-KL < PMQL-LTE < PMQL-LE ≤ PMQL-RRE < PMQL-MLE。在中等过离散（第二组）和较低过离散（第三组）场景下，优势依然保持。

**Real data application（实证数据应用）**
瑞典足球数据中，PMQL-KL的MSE（0.118）显著低于PMQL-MLE（0.371）及其他收缩估计量，系数估计值呈现适度收缩但符号一致，协变量效应解释不变。这与模拟结果高度吻合。

**总结讨论与结论**

研究人员在讨论部分指出，PMQL-KL通过结合Ridge和Liu结构，在严重多重共线性和高维设置下实现了比现有估计量更优的偏差-方差权衡，且对不同过离散水平具有稳健性。实证数据进一步证实了其在实际应用中的稳定性和效率。尽管如此，偏倚参数的选择基于MMSE表达式推导，在小样本或极端多重共线性下的稳健性未充分评估。未来可扩展至其他混合Poisson模型、高维变量选择以及贝叶斯或重抽样方法。结论部分翻译如下：本研究为PMQL-RM引入了一种新的岭型收缩估计量（PMQL-KL），以应对计数数据分析中过离散与多重共线性的联合挑战。基于Kibria–Lukman偏倚方案，研究人员推导了该估计量的偏倚、方差-协方差矩阵和MMSE，并与现有PMQL-MLE、PMQL-RRE、PMQL-LE和PMQL-LTE进行了MMSE理论比较，获得了PMQL-KL在更小MSE矩阵意义上优于竞争估计量的明确条件，并提出了数据驱动的偏倚参数选择程序。广泛的Monte Carlo模拟表明，PMQL-KL在所有考虑的场景中一致地达到最小标量MSE，尤其在严重多重共线性和高维设置下，增益显著，且该优势在不同过离散水平下持续存在。瑞典足球数据的实证应用进一步证实了PMQL-KL的实际价值，其产生最低的经验MSE，同时保持回归系数的符号和实质性解释，从而提供比PMQL-MLE和现有收缩方法更稳定可靠的推断。理论、模拟和实证证据共同表明，PMQL-KL是PMQL回归框架中处理多重共线性过离散计数数据的一个稳健高效的替代方案。尽管结果富有前景，但PMQL-KL的偏倚参数通过基于MMSE表达式的数据规则选取，该准则在小样本、极端多重共线性或高杠杆配置下的稳健性尚未彻底评估。未来工作可将该估计量扩展至其他混合Poisson模型、高维特征选择以及贝叶斯或重抽样策略的偏倚参数选择。

联系信箱：

粤ICP备09063491号

热点排行