自适应 ?q正则化估计方法在高维稀疏协方差矩阵估计中的应用：一种带最小特征值约束的优化方案

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Journal of Multivariate Analysis》：Adaptive ?q regularized estimation for high-dimensional sparse covariance matrix

【字体：大中小】 时间：2026年02月16日 来源：Journal of Multivariate Analysis 1.7

编辑推荐：

　　本文综览了高维稀疏协方差矩阵（HSCME）估计的最新进展，系统性地介绍了阈值估计、基于优化的估计及改进的阈值估计三类主流方法。文章聚焦于能同时保证估计的稀疏性和正定性的优化方法，并重点评述了一种新兴的自适应 ?q正则化估计器（mecA?qRE）。该估计器通过引入自适应权重处理异方差性问题，避免了传统的先估计相关矩阵再估计协方差矩阵的两阶段框架，提升了稳健性。论文不仅分析了其渐近和有限样本性质，还提出了求解该优化问题的迭代重加权 ?1最小化算法（IR?1MM）及其近似版本（IIR?1MM），并通过模拟研究验证了其相对于现有方法的优越性能。

Section Snippets

Statistical properties

让 Σ? 表示由 mecA?_qRE 生成的估计量。本节在一个广泛定义的稀疏协方差矩阵类别上探索 Σ? 的统计性质，该类别定义为 U_d^#? { Σ ∈ S^p: Σ ? τ I_p, max_u∑_v=1^p(σ_uuσ_vv)^(1-d)/2|σ_uv|^d≤ s₀(p) }，其中 0 ≤ d < 1，τ > 0，并且 s₀(p) 是一个依赖于 p 并且以慢于 p 的速度发散的参量。通过 (3) 式，在 U_d^#中的每个协方差矩阵的列都位于一个加权 ?_d球内，其中权重由总体协方差矩阵各分量的方差决定。

Necessary optimality condition

尽管第 2 节已经探索了 mecA?_qRE 许多良好的统计性质，但函数 F 的非凸性和约束条件使得求解问题 (1) 变得困难。这是所有非凸优化问题共同面临的困境。虽然第 2 节中定义的 A?_qRE 是其最小特征值大于 ε 时问题 (1) 的全局解，但在大多数情况下，它可能无法保持正定，甚至无法保持半正定。因此，本节的重点是推导 mecA?_qRE 的必要最优性条件，并定义一种一阶平稳点，这为后续设计的算法提供了明确的目标。

Iterative reweighted minimization methods

本节介绍了用于求解问题 (1) 的迭代重加权 ?₁最小化方法（IR?₁MM）及其近似变体（IIR?₁MM）。两种算法均源于 Lu (2014) 提出的用于解决经典 ?_q正则化无约束优化的迭代重加权 ?₁最小化方法。相较于 Lu (2014) 中的模型，本文模型 (1) 结构更为复杂，这导致了算法框架及其分析上的差异。例如，所提算法中的子问题不再像原方法那样存在闭式解，因此需要采用迭代算法（如交替方向乘子法 ADMM）来近似求解，并为近似求解的算法提供了收敛性分析。

Simulations

我们通过一些模拟来研究 mecA?_qRE 的有限样本表现。模拟主要包含两部分。第一部分涉及迭代重加权 ?₁最小化方法（IR?₁MM）与其近似版本（IIR?₁MM）之间的比较，以及选择合适 q 值的研究。第二部分则考虑使用 q = 0.3 的 mecA?_qRE，并通过模拟将其与其他估计器进行比较。在所有模拟中，样本协方差矩阵（SCM）被用作公式 (1) 中的 Σ?，同时也用作 IR?₁MM 和 IIR?₁MM 算法的初始点。我们测试了两种类型的稀疏协方差矩阵结构，以评估方法在不同数据生成机制下的性能。

A cancer RNA sequence dataset

在本小节中，我们将 mecA?_qRE 应用到一个癌症 RNA 测序（RNA-seq）基因表达数据集中。该数据集先前已在 Wang 等人 (2024) 的研究中进行过数值分析。我们将 mecA?_qRE 与 htATE（硬阈值自适应估计器）、FSPDE（固定支撑正定修正估计器）、W?₁E（加权 ?₁估计器）以及 AC?₁RE（自适应加帽 ?₁正则化估计器）进行比较。该数据集是 RNA-Seq (HiSeq) PANCAN 数据的一个子集，包含 801 个样本，每个样本测量了 20531 个基因的表达。这些样本代表了五种肿瘤类型：BRCA（乳腺癌）、KIRC（肾透明细胞癌）、COAD（结肠癌）、LUAD（肺腺癌）和 PRAD（前列腺癌）。在剔除所有样本中表达均为零的基因后，修订后的数据集包含 [此处文档内容缺失具体数目]。

Conclusions

本文提出了一种用于高维稀疏协方差矩阵估计的、带有最小特征值约束的自适应 ?_q正则化估计方法。我们首先分析了该估计量的统计性质。自适应权重 (2) 使得我们的估计器在温和的正则条件下达到了最优收敛速率。此外，本文还提供了其非渐近性质和选择一致性。本文的一个有趣之处在于，我们的方法直接估计协方差矩阵，避免了传统两阶段框架对数据标准化的依赖，并引入了针对异方差性设计的自适应权重。这使得估计过程对异常值更加稳健。我们提出的迭代重加权算法能够有效求解伴随非利普希茨 ?_q正则项和凸约束的复杂优化问题，并建立了算法的收敛性保证。模拟研究和实际数据分析均表明，所提方法在估计精度和算法效率上优于现有的先进方法。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号