
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于图差异学习的多视图无监督特征选择方法及其在跨模态数据整合中的应用
【字体: 大 中 小 】 时间:2025年09月12日 来源:Neurocomputing 6.5
编辑推荐:
本文提出了一种新颖的多视图无监督特征选择框架GDFS(Graph Discrepancy Learning based Feature Selection),通过联合构建核空间局部图与低维投影全局图,引入图差异项(Graph Discrepancy)和低秩张量约束(Low-rank Tensor Constraint),有效解决了多视图数据中全局-局部结构协同建模与非线性和跨视图结构对齐的挑战。该方法在六个基准数据集上展现出优越的聚类性能,为跨模态生物数据整合提供了新思路。
Highlight
我们提出了一种集成框架,可同时构建局部和全局图结构,分别捕获细粒度邻域关系和整体数据分布。通过图差异项耦合这两种表征,显著增强结构一致性与模型鲁棒性。
为更好适应现实数据的非线性特性,局部图在核诱导空间(Kernel-induced Space)中构建,使模型能有效捕获复杂非线性关系(如弯曲决策边界),这是传统线性图构建方法难以准确表征的。
我们开发了高效优化算法来求解目标函数,兼具稳定收敛性和可控计算复杂度。通过在多种多视图基准数据集上的广泛聚类实验,验证了方法的有效性和实用价值。
Kernel generation
给定从输入空间抽取的数据样本集,核方法通过隐式特征映射将这些样本投影到高维再生核希尔伯特空间(RKHS)。由于RKHS可能具有无限维数,该映射通常不显式定义,导致直接计算嵌入表示不可行。幸运的是,Mercer定理支持通过核函数在原始空间计算RKHS中的内积。
Preliminary
本文中矩阵、向量和标量分别用粗体大写字母、粗体小写字母和普通斜体字母表示。n、v和c分别表示样本数、视图数和聚类数。In代表n×n单位矩阵。第v个视图的数据矩阵定义为X(v) ∈ Rn×dv。tr(·)和diag(·)分别表示矩阵的迹和对角元素。Frobenius范数和?2,1-范数分别记为∥·∥F和∥·∥2,1。
Datasets and compared methods
本节我们在真实世界多视图数据集上评估GDFS方法的有效性。数据集详细特征见表3(原表)。为全面评估GDFS,我们与经典及前沿多视图特征选择算法进行了对比实验。竞争方法简要概述如下。此外,为进一步验证方法在捕获跨视图一致性方面的有效性,我们设计了消融实验。
Conclusion
本工作中,我们提出了新颖的多视图无监督特征选择框架GDFS,它在统一结构中有效整合了局部与全局图学习。通过联合建模核空间中的非线性局部关系和低维投影的全局结构,GDFS同时捕获了细粒度和整体数据特征。此外,引入的图差异项和低秩张量约束增强了跨视图结构一致性与高阶相关性挖掘。
生物通微信公众号
知名企业招聘