基于图正则化与标签传播的深度半监督多视图非负矩阵分解聚类方法
《Machine Learning with Applications》:LapSDNMF: Label propagation assisted soft-constrained deep non-negative matrix factorisation for semi-supervised multi-view clustering
【字体:
大
中
小
】
时间:2025年11月05日
来源:Machine Learning with Applications 4.9
编辑推荐:
本研究针对多视图高维数据聚类中标签信息稀缺、非线性结构复杂等挑战,提出一种融合图正则化与标签传播的深度半监督非负矩阵分解框架(LapSDNMF)。通过构建多层分解结构捕获层次特征,结合局部几何约束与标签传播机制,有效利用部分标注数据提升聚类性能。实验表明该方法在多个真实数据集上显著优于现有方法,为多模态生物数据挖掘提供了新思路。
随着多组学技术和多模态数据的快速发展,如何从高维、异构的多视图数据中提取有效特征并进行精准聚类已成为机器学习领域的重要挑战。传统非负矩阵分解(NMF)方法虽能实现降维和特征提取,但在处理复杂非线性结构、利用部分标签信息以及整合多视图特征方面存在明显局限。特别是在生物医学领域,带标签样本获取成本高昂,而多视图数据(如基因表达、甲基化、蛋白质组数据)往往蕴含互补信息,需要开发能够同时利用标注信息、保持数据几何结构并挖掘深层特征的新型算法。
为此,研究人员在《Machine Learning with Applications》发表了题为"LapSDNMF: Graph regularized deep semi-supervised non-negative matrix factorization with label propagation for multi-view clustering"的研究论文,提出了一种融合图正则化与标签传播机制的深度半监督多视图非负矩阵分解框架。该工作通过构建多层分解结构逐层提取层次特征,引入图正则化保持数据流形结构,并结合标签传播机制利用部分标注信息指导聚类过程,有效解决了多视图数据聚类中的标签稀缺和非线性特征提取难题。
本研究采用的核心技术方法包括:1)多层级联非负矩阵分解架构,逐层降维提取层次特征;2)基于热核相似度的图正则化技术(Laplacian regularization)保持局部几何结构;3)标签传播算法(Label Propagation)利用部分标注样本;4)多视图协同优化策略整合异构数据特征。实验使用Reuters-MinMax等多视图数据集验证性能,采用聚类准确率(ACC)、标准化互信息(NMI)等指标进行评估。
3.1 研究背景与动机
多视图聚类旨在整合多个来源的数据视图以提高聚类性能,但现实应用中常面临标签数据稀缺的挑战。传统半监督方法如约束非负矩阵分解(CNMF)虽能利用标签信息,但存在"硬约束"过强、无法处理复杂非线性关系等问题。深度非负矩阵分解虽能挖掘层次特征,但缺乏对多视图数据和部分标签的有效整合机制。
3.2 LapSDNMF框架设计
研究人员提出了一种新颖的图正则化深度半监督多视图非负矩阵分解框架(LapSDNMF)。该框架包含三个核心组件:1)软约束深度NMF基础模块,通过多层分解(如两层架构:150→50维)逐步提取低维表示;2)图正则化组件,基于k近邻(kNN)和热核相似度构建权重矩阵,保持数据在降维过程中的局部几何结构;3)标签传播组件,通过预测成员矩阵Fv将标注信息传播到未标注样本。最终通过多视图表示融合得到共识矩阵FZcom作为聚类输入。
3.3 优化算法与求解
采用乘性更新规则(Multiplicative Update Rule)交替优化各因子矩阵。对于第v视图第i层的辅助矩阵Zv(i),其更新规则引入图拉普拉斯项和标签约束项,确保在保持几何结构的同时利用标注信息。预测成员矩阵Fv的更新则通过结合标签指示矩阵和相似度矩阵实现半监督学习。
4.1 性能验证实验
在Reuters-MinMax等真实数据集上的实验表明,LapSDNMF在聚类准确率(ACC)、标准化互信息(NMI)和纯度(Purity)指标上均显著优于对比方法。当标签比例为30%时,该方法能有效利用有限标注信息,较传统半监督方法提升约10-15%的聚类性能。
4.2 参数敏感性分析
研究表明图正则化参数α和层数设置对性能有重要影响。通过网格搜索确定最优参数组合,发现两层架构在特征提取效率和计算复杂度间取得最佳平衡。热核相似度中的温度参数t通过交叉验证确定最优值。
4.3 消融实验
通过移除图正则化或标签传播组件的对比实验,验证了各模块的必要性。结果显示,完整模型的性能显著优于任何简化版本,证明多组件协同工作的有效性。
本研究提出的LapSDNMF框架成功解决了多视图聚类中的三个关键问题:1)通过深度架构捕获复杂非线性层次特征;2)利用图正则化保持数据内在几何结构;3)通过标签传播机制有效利用部分标注信息。实验证明该方法在多个真实数据集上具有显著优势,为生物医学多组学数据整合分析、临床分型等应用提供了有效工具。未来工作将扩展至动态多视图数据和在线学习场景,进一步提升方法的实用性和扩展性。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号