《Journal of Multivariate Analysis》:Adaptive ?q regularized estimation for high-dimensional sparse covariance matrix
编辑推荐:
本文综览了高维稀疏协方差矩阵(HSCME)估计的最新进展,系统性地介绍了阈值估计、基于优化的估计及改进的阈值估计三类主流方法。文章聚焦于能同时保证估计的稀疏性和正定性的优化方法,并重点评述了一种新兴的自适应 ?q正则化估计器(mecA?qRE)。该估计器通过引入自适应权重处理异方差性问题,避免了传统的先估计相关矩阵再估计协方差矩阵的两阶段框架,提升了稳健性。论文不仅分析了其渐近和有限样本性质,还提出了求解该优化问题的迭代重加权 ?1最小化算法(IR?1MM)及其近似版本(IIR?1MM),并通过模拟研究验证了其相对于现有方法的优越性能。
Section Snippets
Statistical properties
让 Σ? 表示由 mecA?qRE 生成的估计量。本节在一个广泛定义的稀疏协方差矩阵类别上探索 Σ? 的统计性质,该类别定义为 Ud#? { Σ ∈ Sp: Σ ? τ Ip, maxu∑v=1p(σuuσvv)(1-d)/2|σuv|d≤ s0(p) },其中 0 ≤ d < 1,τ > 0,并且 s0(p) 是一个依赖于 p 并且以慢于 p 的速度发散的参量。通过 (3) 式,在 Ud#中的每个协方差矩阵的列都位于一个加权 ?d球内,其中权重由总体协方差矩阵各分量的方差决定。
Necessary optimality condition
尽管第 2 节已经探索了 mecA?qRE 许多良好的统计性质,但函数 F 的非凸性和约束条件使得求解问题 (1) 变得困难。这是所有非凸优化问题共同面临的困境。虽然第 2 节中定义的 A?qRE 是其最小特征值大于 ε 时问题 (1) 的全局解,但在大多数情况下,它可能无法保持正定,甚至无法保持半正定。因此,本节的重点是推导 mecA?qRE 的必要最优性条件,并定义一种一阶平稳点,这为后续设计的算法提供了明确的目标。
Iterative reweighted minimization methods
本节介绍了用于求解问题 (1) 的迭代重加权 ?1最小化方法(IR?1MM)及其近似变体(IIR?1MM)。两种算法均源于 Lu (2014) 提出的用于解决经典 ?q正则化无约束优化的迭代重加权 ?1最小化方法。相较于 Lu (2014) 中的模型,本文模型 (1) 结构更为复杂,这导致了算法框架及其分析上的差异。例如,所提算法中的子问题不再像原方法那样存在闭式解,因此需要采用迭代算法(如交替方向乘子法 ADMM)来近似求解,并为近似求解的算法提供了收敛性分析。
Simulations
我们通过一些模拟来研究 mecA?qRE 的有限样本表现。模拟主要包含两部分。第一部分涉及迭代重加权 ?1最小化方法(IR?1MM)与其近似版本(IIR?1MM)之间的比较,以及选择合适 q 值的研究。第二部分则考虑使用 q = 0.3 的 mecA?qRE,并通过模拟将其与其他估计器进行比较。在所有模拟中,样本协方差矩阵(SCM)被用作公式 (1) 中的 Σ?,同时也用作 IR?1MM 和 IIR?1MM 算法的初始点。我们测试了两种类型的稀疏协方差矩阵结构,以评估方法在不同数据生成机制下的性能。
A cancer RNA sequence dataset
在本小节中,我们将 mecA?qRE 应用到一个癌症 RNA 测序(RNA-seq)基因表达数据集中。该数据集先前已在 Wang 等人 (2024) 的研究中进行过数值分析。我们将 mecA?qRE 与 htATE(硬阈值自适应估计器)、FSPDE(固定支撑正定修正估计器)、W?1E(加权 ?1估计器)以及 AC?1RE(自适应加帽 ?1正则化估计器)进行比较。该数据集是 RNA-Seq (HiSeq) PANCAN 数据的一个子集,包含 801 个样本,每个样本测量了 20531 个基因的表达。这些样本代表了五种肿瘤类型:BRCA(乳腺癌)、KIRC(肾透明细胞癌)、COAD(结肠癌)、LUAD(肺腺癌)和 PRAD(前列腺癌)。在剔除所有样本中表达均为零的基因后,修订后的数据集包含 [此处文档内容缺失具体数目]。
Conclusions
本文提出了一种用于高维稀疏协方差矩阵估计的、带有最小特征值约束的自适应 ?q正则化估计方法。我们首先分析了该估计量的统计性质。自适应权重 (2) 使得我们的估计器在温和的正则条件下达到了最优收敛速率。此外,本文还提供了其非渐近性质和选择一致性。本文的一个有趣之处在于,我们的方法直接估计协方差矩阵,避免了传统两阶段框架对数据标准化的依赖,并引入了针对异方差性设计的自适应权重。这使得估计过程对异常值更加稳健。我们提出的迭代重加权算法能够有效求解伴随非利普希茨 ?q正则项和凸约束的复杂优化问题,并建立了算法的收敛性保证。模拟研究和实际数据分析均表明,所提方法在估计精度和算法效率上优于现有的先进方法。