基于后验与先验混合变分自编码器的潜在空间表征学习与聚类分析新方法
【字体:
大
中
小
】
时间:2025年09月29日
来源:Neurocomputing 6.5
编辑推荐:
本文提出一种创新的混合变分自编码器(MVAE)模型,通过将先验分布和变分后验分布均扩展为混合形式,显著提升高维数据潜在空间聚类性能。该模型通过EM优化算法联合训练聚类概率与模型参数,在多个基准数据集上展现出优于现有深度聚类算法(如VADE、GMVAE)的聚类效果,同时保持良好数据重建与生成能力。
考虑一个由从分布p(x)独立抽取的N维向量x组成的未标记数据集,其中每个x代表数据中的一个聚类。若已知先验聚类数K,则可通过离散潜变量z∈{1,...,K}和低维连续潜变量w学习数据的潜在空间表征。
p(x,w,z) = p(x|w)p(w|z)p(z)
p(w|z) = ∏k=1K [N(μk, σ2kI)]zk
p(x|w) = N(μθ(w), diag(σ2θ(w)))
此处p(x|w)是解码器网络,而聚类先验分布为p(z)=Cat(π)。
本节评估所提模型的聚类性能,并在标准基准数据集上与主流深度聚类算法进行对比。所有实验采用配备24GB显存的NVIDIA RTX A5000或Quadro RTX 6000 GPU(CUDA 12.3)完成。模型基于Python 3.10.14和PyTorch 2.1.2实现,代码已开源。
虽然不同优化方法的目标函数一致,但后验概率估计公式(12)和(13)的差异导致训练耗时不同。表1显示两种优化方法在基准数据集上10次训练的运行时间(挂钟时间),可见MVAE(EM-V2)方法具有更高计算效率。
本节系统评估所提模型的聚类性能、数据重建质量以及潜在空间样本生成能力。结果表明我们的模型在保持合理重建精度的同时,能生成具有高度真实性的新样本。
本研究通过将VAE框架中潜变量的先验和变分后验均设为混合分布,扩展了VADE和β-DVAE深度聚类算法,使模型能更充分利用识别出的聚类结构。
所提MVAE模型的证据下界(ELBO)将聚类分布整合到VAE各组件中。我们提出两种EM算法变体进行优化,
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号