《Pattern Recognition》:MAPLE-VAE: MAP-based LaplacE VAE for Robust Density Estimation
编辑推荐:
针对高维数据中零方差特征导致的训练不稳定问题,提出基于拉普拉斯分布的MAPLE-VAE模型,通过引入形状参数正则化实现冗余特征筛选,并扩展至柯西分布有效提升密度估计和生成性能。
Nannan Zong|Li Li|Wenfang Xiang|Changle Zhou|Songzhi Su
厦门大学信息学院,中国福建省厦门市翔安区翔山路向阳路4221号大学社区,邮编361005
摘要
鲁棒密度估计是机器学习中的一个基本挑战。变分自编码器(VAE)在线性表达能力、可扩展性和流形建模能力方面克服了传统密度估计方法的局限性。然而,VAE经常受到训练动态不稳定的影响。在Student-t VAE框架中,观测变量被假设服从Student-t分布。当特征空间包含许多零方差特征时,数据点倾向于在某些子空间中聚集,导致其他维度上的信息稀疏。在这种情况下,Student-t分布难以捕捉真实的数据结构,从而导致模型不稳定。为了解决这个问题,我们提出了基于最大后验(MAP)的LaplacE VAE(MAPLE-VAE)。首先,我们假设观测变量服从Laplace分布,从而更好地建模具有零方差特征的子空间结构。其次,我们引入了一个正则化项,使用Laplace分布的形状参数的倒数作为先验,这减少了高维数据中的冗余,鼓励超稀疏解,并提高了泛化能力。本研究首次明确了高斯、Laplace和Student-t解码器的适用场景和条件。此外,MAPLE-VAE被扩展到Cauchy分布,并应用于高度不平衡的数据集,取得了有希望的结果。在多种数据集上的实验结果表明,MAPLE-VAE实现了鲁棒的训练和改进的密度估计性能。
引言
鲁棒密度估计是机器学习中的一个基本挑战,在工业检测[1]、遥感和交通分析[2]等领域有广泛的应用。密度估计的关键挑战包括高维空间中的维度灾难、流形假设以及表达能力的限制。传统方法,包括核密度估计[3]、高斯混合模型[4]和支持向量机[5],基本上依赖于线性组合或局部线性近似,无法有效捕捉复杂的非线性结构。相比之下,变分自编码器[6]引入了一个非线性的“桥梁”(编码器-解码器结构),将简单低维潜在空间中的可处理密度映射到数据空间中的复杂密度。这一框架将密度估计重新定义为潜在变量模型中的推断和学习问题,并利用深度学习的优势来克服传统方法在表达能力、可扩展性和流形建模能力方面的局限性。
变分自编码器[7]已被证明是理解和生成复杂高维数据的有效生成模型,因此特别适合多变量密度估计。Kingma和Welling[8]首次引入了VAE模型,并展示了其在图像生成任务中的有效性。随后,Kingma等人[9]将VAE应用于半监督学习,展示了如何利用生成模型中的潜在变量空间来提高分类性能。An和Cho[10]利用VAE进行异常检测,通过计算重建概率来识别异常数据点。Fraccaro等人[11]将VAE扩展到时间序列建模,提出了用于动态系统建模和时间序列数据生成的顺序VAE模型。这些多样的应用突显了VAE在各个领域的重要性。
尽管有这些优势,VAE经常受到训练动态不稳定的影响,这被称为零方差问题[12]。零方差特征对整体数据分布没有任何贡献[13],在高斯分布中,会导致协方差矩阵退化[14],从而妨碍可靠的密度估计[15]。在高维数据中,这些特征加剧了维度灾难,而没有提供有用的信息,从而降低了密度估计的效率和准确性[16]。例如,在核密度估计中,无信息特征会影响核函数的选择和带宽的确定,从而对结果产生负面影响[17]。在VAE中,小的误差可能导致目标函数中的大值,损害生成能力和泛化性能。
为了解决这个问题,Takahashi等人[18]提出了Student-t VAE,用重尾Student-t分布[19]替换解码器中的高斯分布,以提高对错误的鲁棒性并稳定训练。然而,当特征空间包含许多零方差特征时,数据点会在特定子空间中聚集,使得其他维度上的数据点稀疏。在这种情况下,Student-t分布难以捕捉真实的数据结构,导致模型不稳定。
为了解决这个问题,我们提出了MAPLE-VAE。首先,我们假设观测变量服从Laplace分布,以更好地捕捉具有零方差特征的子空间结构。众所周知,Laplace分布[20]比Student-t分布具有更尖锐、更重的尾部,当特征空间包含许多零方差特征时,这提高了对错误的鲁棒性。其次,在高维特征空间中,并非所有特征都与目标变量密切相关。冗余特征可能导致训练不稳定。为了缓解这个问题,我们在Laplace VAE中引入了一个正则化项,使用Laplace解码器的形状参数的倒数作为先验,从而实现特征选择。通过将不太重要特征的系数缩小到零,我们只保留了对模型预测最有影响力的特征,从而降低了维度、模型复杂性和过拟合的风险。这种正则化提高了训练过程中最大后验(MAP)Laplace解码器的稳定性。最后,我们系统地分析了高斯、Laplace和Student-t解码器的适用场景和条件。
我们的主要贡献包括:
•我们提出了Laplace VAE,以减轻特征空间包含许多零方差特征时的训练不稳定性。
•为了解决高维数据中的特征冗余,我们在Laplace解码器的形状参数上应用了伽马先验作为正则化项。
•本研究首次明确了高斯、Laplace和Student-t解码器的适用场景和条件。
•我们将MAPLE扩展到Cauchy分布,并将其应用于高度不平衡的数据集,取得了有希望的结果。
相关工作
相关工作
密度估计旨在从观测数据中学习潜在的概率分布
(x),这是统计学和机器学习中的一个基本问题。传统方法大致可以分为参数化和非参数化方法。非参数化方法对分布形式的假设最小。例如,核密度估计[21]提供了灵活性,但在高维空间中,数据变得极其稀疏,导致估计的概率分布不准确。
初步知识
高斯VAE。 VAE由编码器和解码器组成。编码器将输入数据x映射到潜在变量z的参数,以生成重建的数据。编码器和解码器都使用神经网络实现。编码器估计潜在空间分布的参数,通常是μθ(z)和。优化目标包括两个部分:重建损失和KL散度[29]。通过最小化这个损失(或等效地最大化
实验
在本节中,我们评估了MAPLE-VAE的训练鲁棒性和密度估计性能。
结论
本研究研究了当特征空间包含许多零方差特征时,不同分布的VAE解码器的适用性。我们的主要发现如下。首先,假设观测变量服从Laplace分布,这有助于更好地建模具有零方差特征的子空间结构。其次,引入了基于Laplace分布形状参数倒数的正则化项;这减少了
CRediT作者贡献声明
Nannan Zong:撰写 – 审稿与编辑,撰写 – 原始草稿,可视化,验证,方法论,数据整理。Li Li:方法论。Wenfang Xiang:监督,形式分析。Changle Zhou:监督,资源管理。Songzhi Su:项目管理,资金获取。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。