在对多变量正态分布进行对角变换后,精确的平均值和协方差公式如下:

《Journal of Multivariate Analysis》:Exact mean and covariance formulas after diagonal transformations of a multivariate normal

【字体: 时间:2025年08月09日 来源:Journal of Multivariate Analysis 1.7

编辑推荐:

  本文提出了一种计算多元正态分布对角变换后均值向量和协方差矩阵的方法,结合级数展开和傅里叶/拉普拉斯变换,并进行了数值验证。

  在多变量统计学领域,研究如何从多元正态分布通过某种变换得到新的分布,是一个重要的问题。这类变换通常被称为对角变换(diagonal transformation),因为它仅对每个变量进行独立的变换,而不改变它们之间的关系。本文探讨了如何计算这种变换后随机向量的均值向量和协方差矩阵,这为理解非高斯分布的结构和性质提供了理论基础。我们采用两种方法:一种是基于函数展开的系列方法,另一种是基于变换的数学方法。通过计算几个具体的例子,我们展示了如何估计协方差矩阵中的元素,并将理论结果与数值计算结果进行了比较。

在多元正态分布的背景下,如果我们考虑一个随机变量 $X$ 服从均值为0、协方差矩阵为 $\Sigma$ 的多元正态分布,即 $X \sim N(0, \Sigma)$,然后对每个分量应用一个函数变换,得到新的随机向量 $Y = (f_1(X_1), f_2(X_2), \dots, f_d(X_d))$,那么 $Y$ 的分布可以被视为对角变换后的分布。这种变换的结构非常灵活,允许我们对每个变量使用不同的函数进行变换,从而生成具有非高斯特性的分布。在某些情况下,变换后的分布可以保留原有的条件独立性结构,但其整体分布可能变得高度非高斯,这使得对角变换成为非高斯图学习算法的重要测试案例。

我们的研究动机来源于概率图模型的学习和测度传输(measure transport)等领域的应用。在这些应用中,理解变换后分布的均值和协方差对于建模和分析数据至关重要。如果我们将 $Y \sim \pi$,其中 $\pi$ 是由变换函数 $f$ 与原分布 $N(0, \Sigma)$ 所定义的分布,那么 $\pi$ 可以被表示为 $D^{\sharp}L^{\sharp}\eta$,其中 $D$ 是一个非线性的对角变换,$L$ 是一个线性变换,而 $\eta$ 是标准正态分布。这样,变换后的分布保留了原始分布的条件独立性结构,但其边缘分布可能具有不同的特性,这使得它成为研究非高斯分布结构的一个有力工具。

在这一背景下,我们探讨了如何计算变换后分布的均值向量和协方差矩阵。均值向量的每个元素可以通过对变换函数的积分来计算,而协方差矩阵的元素则需要更复杂的计算方法。具体来说,对于任意两个不同的分量 $i$ 和 $j$,协方差 $\tau_{ij}$ 可以表示为变换函数 $f_i$ 和 $f_j$ 之间的联合积分,减去它们各自期望值的乘积。对于相同分量 $i = j$,协方差则可以通过变换函数的平方与高斯密度函数的积分来计算。

在研究中,我们放松了之前对变换函数的一些限制,允许它们是任意的,只要满足某些基本条件。例如,变换函数的导数在零点处必须是有限的,或者它们可以是某些变换(如傅里叶变换或拉普拉斯变换)的逆变换。这些放松的条件使得我们的方法能够处理更广泛的变换函数,包括那些具有不连续性或导数无限大的函数。通过这种方式,我们不仅能够计算变换后分布的精确均值和协方差,还能对它们进行估计,并在某些情况下通过数值方法进行验证。

在具体计算中,我们首先考虑了光滑变换函数的情况。对于这类函数,我们可以使用级数展开的方法来计算变换后的协方差。通过这种方法,我们得到了一个关于原始协方差 $\sigma_{ij}$ 的级数表达式,该表达式可以用于计算变换后的协方差。此外,我们还研究了非光滑变换函数的情况,例如那些可以通过傅里叶变换或拉普拉斯变换表示的函数。通过这些方法,我们能够将变换后的协方差表达为原始协方差和变换函数之间的某种形式的函数,从而提供了一种更通用的计算方式。

我们还讨论了如何估计变换后的协方差矩阵的元素。在某些应用中,例如在概率图模型的学习过程中,需要对变换后的协方差进行估计,以便理解变量之间的关系。我们通过级数展开和变换方法提供了一些估计策略,并且展示了这些估计方法在实际应用中的有效性。通过使用有限数量的样本,我们能够计算出变换后的协方差,并将其与理论结果进行比较,从而验证我们的方法。

为了更好地理解变换后的分布特性,我们还提供了一些具体的例子。例如,我们考虑了不同的变换函数,如多项式函数、指数函数等,并计算了它们在变换后分布中的均值和协方差。这些例子不仅展示了我们的方法的适用性,还揭示了变换函数对分布特性的影响。通过这些例子,我们可以看到,在某些情况下,变换后的协方差可以简化为一个闭合表达式,而在其他情况下,我们需要通过级数展开来近似计算。

在数值计算方面,我们使用了大量样本(如 $10^6$ 个样本)来估计变换后的协方差,并将其与理论计算结果进行了比较。结果显示,理论计算与数值估计在大多数情况下高度一致,通常在小数点后第三位或更多位上吻合。然而,在某些特殊情况下,由于样本数量有限或变换函数的特性,数值估计可能会出现偏差。这提醒我们在实际应用中需要注意样本的大小和变换函数的选择,以确保估计结果的准确性。

此外,我们还提供了一些基本的性质和定义,以帮助读者更好地理解变换后的分布。例如,我们定义了变换后的协方差 $\tau_{ij}$ 的表达式,并展示了它在不同变换函数下的表现。这些性质不仅有助于理论分析,也为实际应用提供了指导。我们还提供了一个变换函数的表格,其中包括一些常见的函数及其对应的变换形式,这些函数在不同的应用中可能具有重要的意义。

总的来说,本文通过理论分析和数值实验,探讨了多元正态分布经过对角变换后的均值和协方差的计算方法。我们展示了两种不同的方法:级数展开和变换方法,并讨论了它们在不同变换函数下的适用性。通过这些方法,我们不仅能够计算变换后的分布的精确均值和协方差,还能对它们进行估计和验证。这些结果对于理解非高斯分布的结构和性质,以及在概率图模型学习、信息理论、因果效应估计等领域中的应用具有重要意义。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号