编辑推荐:
针对子空间聚类中自表达系数矩阵受类间相似性、类内相异性及噪声干扰的问题,研究人员提出 PIWBDR 方法,结合皮尔逊相关和类内 - 类间约束增强块对角结构。实验表明该方法显著提升矩阵块对角性与聚类精度,为子空间聚类提供新方向。
在数据爆炸式增长的当下,高维数据处理成为棘手难题。高维数据往往嵌入低维子空间,子空间聚类通过线性自表达挖掘数据结构,但其核心的自表达系数矩阵易受类间相似性 “泄漏”、类内相异性及噪声干扰,导致块对角结构不理想,影响聚类精度。现有方法如稀疏子空间聚类(SSC)、低秩表示(LRR)等或偏重局部邻域关系,或强调整体相关性,却难以兼顾全局与局部约束,在复杂噪声环境中性能受限。
为突破这一困境,国内研究人员开展了相关研究,提出皮尔逊与类内 - 类间加权块对角表示学习(PIWBDR)方法,成果发表于《Expert Systems with Applications》。该研究通过多维度约束优化自表达系数矩阵,显著提升子空间聚类在噪声场景下的性能,为高维数据解析提供了新思路。
研究主要采用以下关键技术方法:
- 皮尔逊相关加权:利用皮尔逊相关系数刻画数据点对间的局部相似性,作为自表达系数矩阵的权重,增强同类数据点连接,削弱噪声干扰。
- 类内 - 类间统一约束:从类别层面设计约束项,提升类内紧凑性与类间可分性,强化矩阵块对角结构。
- 迭代优化算法:通过交替优化策略求解非凸目标函数,平衡计算效率与聚类精度。
块对角结构优化效果
理想的自表达系数矩阵应呈现严格块对角形态(同类数据点相似性为 1,异类为 0),但传统块对角表示(BDR)受噪声和数据变异性影响,难以达到理想状态。PIWBDR 通过皮尔逊相关加权增强局部成对相似性,结合类内 - 类间约束调整全局类别关系,实验表明其构建的矩阵块对角性显著优于对比方法(如 SSC、LRR、BDR 等),非对角块元素值更低,类内连接更紧密。
聚类性能评估
在三个公开基准数据集上,PIWBDR 与 11 种主流算法(包括 SSC、LRR、LSR、S3C、BDR、SBDR 等)对比,聚类指标如准确率(ACC)、标准化互信息(NMI)、调整兰德指数(ARI)均显著提升。例如,在含噪数据集上,PIWBDR 的 ACC 较最优对比方法提高 8%-12%,验证了其在噪声环境中的鲁棒性。
方法优势与创新
相较于传统方法,PIWBDR 的创新点在于:
- 多层次约束机制:从成对(pairwise)到类别(classwise)层面构建多级约束,弥补单一全局约束的不足。
- 噪声鲁棒性设计:皮尔逊相关加权可有效抑制离群点影响,类间约束减少跨类错误连接。
- 计算效率平衡:通过迭代优化策略避免复杂矩阵分解,在保证精度的同时降低计算开销。
研究结论与意义
本研究提出的 PIWBDR 方法通过皮尔逊相关加权和类内 - 类间约束的协同作用,显著增强了自表达系数矩阵的块对角结构,提升了子空间聚类在复杂数据环境中的准确性与鲁棒性。该方法为高维数据的无监督分类提供了更有效的工具,可应用于图像识别、生物信息学等领域的数据解析。其多层次约束框架为后续子空间聚类算法设计提供了新思路,尤其在噪声敏感场景中具有重要应用价值。研究结果表明,结合局部相似性与全局类别关系的联合优化,是提升子空间聚类性能的有效途径。