
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于采样的大规模流形学习揭示高维数据判别性聚类结构
《Nature Machine Intelligence》:Sampling-enabled scalable manifold learning unveils the discriminative cluster structure of high-dimensional data
【字体: 大 中 小 】 时间:2025年09月11日 来源:Nature Machine Intelligence 23.9
编辑推荐:
来自国内的研究人员提出一种基于采样的可扩展流形学习方法(SUDE),解决了高维数据聚类结构失真和计算可扩展性难题。该方法通过地标点构建低维骨架并结合约束局部线性嵌入,在单细胞数据分析和心电图异常检测中展现出优越的聚类分离性与全局结构保持能力。
作为机器学习的关键分支,流形学习(manifold learning)能够揭示高维空间中复杂非线性流形的内在低维结构,为可视化、分类、聚类及机制解析提供支持。现有技术虽取得显著成果,但存在聚类结构严重失真问题,且可扩展性不足制约其在大规模数据中的应用。本研究提出一种基于采样的可扩展流形学习技术SUDE(Sampling-enabled Uniform and Discriminative Embedding),其核心是通过选取地标点(landmarks)构建全局数据低维骨架,再采用约束局部线性嵌入(constrained locally linear embedding)将非地标点整合到学习空间中。在合成数据集和真实场景基准测试中,SUDE展现出对数据规模和嵌入维度的卓越可扩展性,同时在聚类分离度、完整性及全局结构保持方面表现突出。实验还表明,即使采样率降低,其嵌入质量仍保持显著鲁棒性。该技术已成功应用于单细胞数据(single-cell data)解析和心电图(electrocardiogram)信号异常检测领域。