《Expert Systems with Applications》:Geometric Downsampling for Structure-Aware Low-Dimensional Data Selection
编辑推荐:
提出几何降采样框架GDS,通过高维局部几何特征分析构建密度场指导采样,减少降维投影导致的结构偏差,提升样本局部结构保真度达7.7%,适用于可视化与建模场景。
Xudong Xiang|Hongxing Qin
重庆邮电大学计算机科学与技术学院,中国
摘要
降维后的采样被广泛使用,但样本的选择通常依赖于可能已经扭曲局部邻域的投影。一旦出现这些扭曲,采样得到的子集就不再能反映数据的原始结构。为了解决这个问题,我们开发了一种降采样方法,在采样步骤之前从高维空间中恢复局部几何特征。该方法分析逐点邻域,通过轻量级映射过程将其方向信息传递到嵌入空间,并将这些信号转换为密度场,以决定哪些点被保留或丢弃。这种额外的几何指导层减少了投影本身引入的偏差,使最终子集与源数据更加一致。在多种降维设置下的实验表明,该方法改善了局部结构度量,基于邻域的指标提升达到了7.7%。该方法可以插入到现有的工作流程中,而无需修改投影算法,适用于需要紧凑且结构可靠子集的场景,如探索性可视化或下游建模。
引言
传统的采样策略通常直接处理低维嵌入。虽然方便,但这种方法有一个根本的限制:降维(DR)过程本质上会丢弃信息(Allaoui等人,2025年)。无论是线性技术(如主成分分析(PCA)还是非线性方法(如t分布随机邻域嵌入(t-SNE)(Li, Feng, Xu, & Cheng,2024年)),在投影过程中都会通过扭曲点间距离来引入几何变化(Espadoto等人,2023年;Xia等人,2024年)。在这样的变形表示上进行采样可能会加剧不准确性,导致选定的点反映的是投影的伪影而不是内在结构。即使在这个阶段引入的微小不准确性也可能在后续分析阶段累积,扭曲视觉解释并削弱建模结果的有效性(Borland, Wang, Zhang, Shrestha, & Gotz,2020年)。
动机。如图1概念性所示,即使嵌入在视觉上看起来连贯,降维也可能引入非均匀的几何扭曲,包括局部收缩和膨胀。大多数在嵌入空间中的采样策略(例如Blue Noise Sampling,BNS)隐含地假设低维布局保留了原始特征空间的几何保真度。然而,当这种保真度下降时,仅在嵌入中进行采样可能会错误地将扭曲解释为数据的内在特征,导致在膨胀区域过度采样,在收缩邻域中采样不足。这激发了需要降采样方法的需求,这些方法能够考虑高维几何特征,而不仅仅是依赖嵌入布局。
表示学习的最新进展推广了端到端的神经架构用于降维和可视化。然而,这些模型与几何降采样并不天然匹配,因为它们引入了训练开销,并且将投影和采样紧密耦合在一起,这限制了它们在嵌入已经计算好的工作流程中的使用。
本研究提出的框架采用了一种解耦的设计,它通过添加高维几何特征来增强现有的嵌入,而不是替换嵌入本身。这种选择保留了传统流程的模块化,同时实现了对几何的感知采样。这些考虑促使我们开发了一种基于几何的、与模型无关的采样方法,而不是学习型的端到端替代方案。
贡献。在扩展了Bian等人(2021年)关于几何感知采样的研究基础上,本文提出了几何降采样(GDS)作为一个集成解决方案。该方法开发了一个连贯的工作流程,将高维结构描述符直接纳入嵌入采样过程中。其核心是从源数据中提取基于邻域的几何特征。这些描述符被映射到嵌入空间中,以构建一个用于自适应采样的几何感知密度场。
本文的主要贡献总结如下:
几何降采样框架:我们的方法将高维几何特征无缝集成到嵌入空间采样过程中。这种集成使得通过结构感知采样选择出更准确反映底层数据分布的低维子集成为可能。
- •
块矩阵计算:我们引入了一种基于块的雅可比矩阵运算计算方案。该设计在处理大规模数据集时有效缓解了内存限制,完整实现代码已公开发布。
- •
泛化验证:在多个不同规模的多领域基准数据集上的广泛评估证明了GDS的一致性能。全面的参数敏感性分析进一步证实了其操作的稳健性。
- •
用户研究:一项精心设计的感知评估收集了领域专家的定性反馈,提供了对GDS可视化效果的人本中心验证。
本文的其余部分安排如下。第2节回顾了降维和采样方法的基础工作。第3节详细介绍了提出的GDS框架的三个核心组成部分:局部几何特征描述、特征空间转换和自适应采样。第4节展示了实验配置和实证发现,包括定量指标和人类受试者评估。第5节探讨了实际应用、方法论限制和有前景的研究方向。结论部分总结了关键见解和贡献。
节选
背景和相关工作
降维和采样通常被分开研究,但它们的顺序使用会导致几何不一致性。特别是,直接从扭曲的嵌入中进行采样可能会传播结构伪影并使选定的子集产生偏差。
几何降采样框架
提出的几何降采样(GDS)框架整合了局部高维子空间估计、基于雅可比的几何投影和密度感知的自适应采样,以保留低维嵌入中的结构信息。本节使用的符号在表1中进行了总结。
实验和评估
本节通过精心构建的实验系统评估了所提出的GDS框架的有效性。我们首先分析了传统采样方法在标准降维流程中引入的几何扭曲。然后,我们评估了GDS在各种降维技术中减轻这些扭曲的能力。进一步的研究还证明了该框架对参数变化的鲁棒性,并验证了其感知相关性。
讨论
虽然GDS整合了已建立的组件——局部PCA、基于雅可比的特征投影和密度感知采样——但其主要贡献在于将这些组件系统地集成到一个统一的工作流程中。这种协调的流程弥补了传统“先降维再采样”框架中常见的几何不连续性。从经验上看,GDS在参数选择上保持了操作的稳定性,用户研究也显示了对其可视化的持续偏好。
结论
本文介绍了几何降采样(GDS),这是一个解决传统降维流程中固有结构不一致性的计算框架。通过将高维数据的局部几何特征与其低维投影相结合,GDS建立了几何感知的密度场,直接指导采样过程。在合成数据和真实世界数据集上的全面评估证明了该方法与多种情况的兼容性。
CRediT作者贡献声明
Xudong Xiang:概念化、数据整理、方法论、软件、可视化、撰写——原始草稿。Hongxing Qin:监督。
利益冲突声明
作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。