异方差数据方差引导回归及其基于分组扩展的非线性预测

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Statistics in Medicine》：Variance-Guided Regression for Heteroscedastic Data With a Grouping-Based Extension for Nonlinear Prediction

【字体：大中小】 时间：2026年06月09日 来源：Statistics in Medicine 1.8

编辑推荐：

　　尽管线性回归常假设同方差性（homoscedasticity），真实数据往往呈现方差模式或残差结构以致违反该假设。研究人员提出VarGuid，一种面向两种相关场景的方差引导（variance-guided）框架：协变量依赖条件方差下的全局线性均值模型，以及可模

尽管线性回归常假设同方差性（homoscedasticity），真实数据往往呈现方差模式或残差结构以致违反该假设。研究人员提出VarGuid，一种面向两种相关场景的方差引导（variance-guided）框架：协变量依赖条件方差下的全局线性均值模型，以及可模拟异方差性的残差非线性均值结构。该框架包含两个刻意分离的组分。第一组分采用迭代重加权回归（iteratively reweighted regression, IRR）算法估计稀疏全局线性均值-方差模型并支持系数解释。第二组分采用双凸人工分组算法进行条件预测，在保持拟合线性主干固定的同时添加组特异性局部截距校正。研究人员建立了全局估计量的预测风险保证，模拟与实证研究表明其改善了样本外预测精度。VarGuid在两个应用中得到展示：中低收入国家健康相关生活质量，以及乳腺癌淋巴结评估的高维基因组预测。

研究背景与问题阐述

线性模型中同方差性假设在实际数据分析中频繁被违反，现有方法通常分两条路径处理：一是保留均值模型并通过稳健推断程序在异方差性下进行有效不确定性量化；二是通过异方差回归、方差函数或对数方差回归及双重广义线性模型（double generalized linear models）显式建模方差或离散度。然而，单一数据集可能同时引发两个不同问题：结果变量是否在整体线性均值模型内具有协变量依赖方差，以及看似异方差的残差模式是否实为非线性均值设定误差的信号而非真实方差机制。例如，Siddharthan等人的研究中，体重指数（body mass index, BMI）不仅与圣乔治呼吸问卷（St. George's Respiratory Questionnaire, SGRQ）评分的中位数相关，还与其变异性相关，且BMI与SGRQ的整体相关性为显著负值，与通常报道的正相关相反，这提示可能存在模型设定误差或同方差性假设失败。为此，研究人员开展本研究，旨在构建一个统一的方差引导框架，既能处理真正的协变量驱动异方差性，又能应对非线性均值设定误差导致的伪异方差现象。

研究内容、结论与意义

研究人员提出VarGuid框架，包含两个概念上分离但相互连接的组分。第一组分（第2节）为估计导向的稀疏全局线性异方差模型，通过惩罚联合均值-方差拟似然估计同时估计均值系数β和方差指数系数γ，支持系数解释，并在未对均值系数施罚时可获得近似标准误。第二组分（第3节）为基于拟合线性主干的条件预测扩展，保持第一阶段估计的β*固定，添加基于人工分组的局部截距校正以吸收残差非线性均值结构。理论方面，命题1证明在总体水平上，允许协变量驱动异方差性仅能改善预测拟风险；定理1给出高维稀疏环境下的有限样本Oracle不等式，证明惩罚估计量达到通常的p/n预测误差率。实证方面，模拟和真实数据分析显示该框架改善了样本外预测精度。该研究发表于《Statistics in Medicine》，为医学统计中高维异方差数据建模提供了新的方法论工具，特别适用于需要区分真实方差机制与非线性均值信号的场景。

关键技术方法

样本来源：包括Siddharthan等人的中低收入国家呼吸健康队列数据（10,664例）及PAM50研究中的乳腺癌RNA测序数据。主要技术方法包括：（1）惩罚联合均值-方差拟似然估计，采用块坐标下降策略交替更新β和γ，β更新结合牛顿-拉夫逊（Newton-Raphson）步与坐标软阈值，γ更新求解加权Lasso问题；（2）迭代重加权回归（IRR）算法，以交叉验证选择惩罚参数λ_β和λ_γ；（3）人工分组预测扩展，基于残差结构构建人工分组变量，通过监督融合（supervised fusion）学习分组，采用双凸优化算法交替更新局部截距α、分组中心W和拉格朗日乘子Λ；（4）预测风险理论分析，包括总体拟风险优势和Oracle不等式证明；（5）R包varGuid实现两阶段分析流程。

研究结果

"第2节方差引导（VarGuid）系数估计量"部分：研究人员定义了逐观察拟似然函数（式2），该函数在高斯误差下与负对数似然重合，但作为拟似然或M-估计准则在误差有限方差条件下仍保持有效。通过块坐标下降策略实现计算，β更新采用结合坐标软阈值的牛顿-拉夫逊步，γ更新求解给定当前方差估计的加权Lasso问题。命题1证明在总体水平上，异方差模型类实现的预测拟风险不劣于（且通常严格优于）同方差Lasso基线，当协变量特定最优尺度α(X)非常数时成立。定理1给出高维Oracle不等式，证明惩罚估计量在稀疏性下达到通常p/n预测误差率。

"第2.2.1节研究结果的新颖性"部分：研究人员指出，虽然古典异方差方法和惩罚M-估计器的高维机械已被建立，但其贡献在于：命题1首次在总体水平上严格扩展同方差Lasso基线；定理1将一般Oracle不等式框架适配于特定的惩罚联合均值-方差拟似然，其中损失函数耦合均值和方差指数并包含非标准项e^{z_i^Tγ}和z_i^Tγ，验证此类非凸风险下的限制强凸性和集中性在技术上有挑战性。

"第2.3节迭代重加权回归（IRR）算法"部分：研究人员设计了交替更新β和γ的算法直至收敛。对于γ，定义得分向量u(γ)和曲率向量v(γ)，通过带软阈值的Lasso牛顿-拉夫逊步更新，并以小常数ε>0强制e^{z_i^Tγ}≥ε保证数值稳定性。对于β，给定当前方差估计求解以w_i=e^{-z_i^Tγ}为权重的加权Lasso问题。模拟研究显示，与依赖异方差稳健标准误的OLS方法相比，VarGuid的明确方差建模可改善置信区间覆盖率，避免三明治估计量的过覆盖现象。

"第3节基于人工分组效应的条件非线性预测"部分：研究人员指出第一阶段估计后，残差模式可能源于非线性均值设定误差而非真实方差机制。为此构建人工局部截距调整：保持β*固定作为固定偏移量，将残差结构用于构建分组变量，通过式（4）的组特异性截距模型进行预测。分组中心矩阵W通过式（5）的监督融合得到，采用基于欧氏距离或非负权重w_jk（如随机森林邻近矩阵）的成对融合惩罚。λ_g较大时所有子组融合为单组，退化为标准线性预测；λ_g→0时每点自成一组。交叉验证选择λ_g，若多个值产生 essentially 相同的均方根误差（RMSE），则选择较大λ_g以获得更简约的解。

"第3.2.1节与混合回归的联系"部分：研究人员阐明其方法与混合回归模型的关键区别：不假设潜在混合分布，不将人工组解释为科学亚群体，仅将其作为局部截距校正用于条件预测，α和W为预测调整参数而非总体水平系数。

"第3.3节模型预测的实证与模拟结果"部分：研究人员使用11个低维UCI数据集和10个高维datamicroarray数据集进行评估。低维模拟中VarGuid获得最低平均秩，优于梯度提升、XGBoost和随机森林，而flexMix和regmixEM表现较差。高维模拟中VarGuid再次取得最佳总体秩，明显优于Lasso和FMRS方法。当底层均值结构为线性时，RMSE随λ_g增大单调下降，最优解退化为单组，表明该方法不会在不需要时创建不必要的局部分组。

"第4.1节探索中低收入国家SGRQ评分的相关因素"部分：应用VarGuid于10,664例参与者数据，最强预测因素为心脏病（估计值27.70，标准误2.69）、结核病（14.08，1.87）和当前吸烟（3.99，1.10）。BMI经调整后方差引导均值系数较小且不显著（-0.11，0.08，p=0.178），提示BMI更可能与呼吸负担的变异性相关而非均值单调变化，说明方差引导加权有助于避免对混杂异方差性的 crude 关联过度解释。

"第4.2节从基因表达数据预测淋巴结评估"部分：应用于PAM50研究的RNA测序数据，预测腋窝淋巴结检查数量。仅使用50个PAM50基因时，Lasso的10折交叉验证RMSE为8.74，VarGuid降至7.65。扩展至全部基因后，Lasso的RMSE为7.118，VarGuid进一步降至7.108。VarGuid选择34个基因，Lasso选择16个，除SPIRE2外Lasso所选基因均被VarGuid包含，但无PAM50基因被任一方法选中。

讨论与结论总结

研究人员在结论部分系统阐述了VarGuid框架的两阶段定位与解释。第2组分是估计导向的，通过β和γ提供可解释的全局线性主干，当λ_β=0时可获得近似基于模型的标准误；第3组分是预测导向的，保持β固定并添加人工组特异性截距校正以改善样本外点预测，该阶段非贝叶斯表述且不传播第一阶段不确定性，而是旨在保持全局线性组分可解释性的同时允许局部非线性校正的有监督条件预测装置。人工分组项的特定统计学解释是：不旨在代表潜在科学亚群体或随机效应分布，而是提供对全局线性拟合未解释残差均值结构的分段常数近似，等价于估计围绕主干预测器的局部截距校正。

研究人员强调实证结果的解释应遵循组分离：中低收入国家应用中第2组分用于全局线性均值-方差模型下的关联估计与解释；非线性模拟和预测基准研究中第3组分用于评估样本外点预测；乳腺癌应用中VarGuid主要作为高维基因组设置中的稀疏预测和变量选择程序而非条件方差机制的正式发现模型。同时指出人工分组扩展在预测器层面引入了解释性挑战，尤其是个体预测器对人工分组结构贡献的量化尚不清楚，这是未来研究的合理方向。此外，惩罚联合估计量的正式推断（如渐近正态性和γ的有效后选择标准误）因联合惩罚和高维性而面临额外挑战；分组扩展的正式不确定性量化（包括将β和γ的第一阶段不确定性传播至人工分组步骤）也超出当前工作范围。完全迭代方案即联合重新估计β与自适应分组将构成不同的半参数模型，需要新的可识别性、优化和后选择推断分析。将去偏推断、后选择推断或传播两阶段不确定性的预测区间纳入方差引导回归，是未来有前景的发展方向。

联系信箱：

粤ICP备09063491号

热点排行