《Reliability Engineering & System Safety》:Deep Transfer Learning Based on Cross-Domain Subsequence Alignment and Feature Contribution Interpretation for Remaining Useful Life Prediction
编辑推荐:
针对大尺度多维数据集的概率密度函数估计难题,提出基于频域离散余弦变换(DCT)和Adam优化器的统一框架,有效解决计算成本高、带宽选择不佳及密度泄漏问题,实验验证其高效性与准确性。
Futai Zhang|Jun Xu|Dan Wang
湖南大学土木工程学院,长沙,410082,中国
摘要
准确估计概率密度函数对于概率建模至关重要,但这仍然是一个主要挑战,特别是对于大规模、多维数据集而言。核密度估计(KDE)是最广泛使用的非参数方法之一,已经得到了广泛研究。然而,对于这类数据集,KDE受到高计算成本、次优带宽选择和密度泄漏的限制。为了解决这些限制,我们提出了一种方法,将带宽选择重新定义为频域中的基于梯度的优化任务,从而同时解决了这三个问题。在这个框架中,数据通过离散余弦变换进行离散化和转换,这将计算复杂度与数据集大小解耦。然后,我们构建了一个可微的目标函数,该函数将频域保真度损失与正则化惩罚相结合,并通过归一化方案进行稳定。通过使用Adam优化器及其解析梯度最小化这个函数,可以获得最优带宽向量。这种方法在效率和准确性方面都优于传统的和基于变换的估计器以及Copula模型,同时以低得多的计算成本实现了与专用非对称乘积核相当的结果。总体而言,所提出的方法为单维到多维数据驱动的密度估计提供了一个可靠的解决方案。
引言
估计多变量随机变量的联合概率密度函数(PDF)是科学和工程中的一个基础性挑战,对于不确定性量化和风险评估至关重要[1]、[2]、[3]。虽然传统方法通常依赖于高斯性或统计独立性等简化假设,但这些假设在实践中很少成立。现实世界系统通常表现出由潜在约束塑造的复杂、非高斯行为[4]。例如,在海洋工程中,变量往往是内在耦合且有界的[5],在结构材料中表现出非线性相关性[6],在金融领域则显示出不对称依赖性的重尾分布[7]。
这种传统假设与实证现实之间的脱节需要能够直接从大型观测数据集中准确高效地估计联合PDF的方法。这些方法必须足够灵活,以捕捉任意的非参数结构,同时对于现代应用来说计算上是可行的。广义上,密度估计方法可以分为两类:参数方法和非参数方法[8]、[9]、[10]。
参数方法指定了一个理论分布,其未知参数从数据中估计得出。简单的全局模型,如多元正态、对数正态或伽马分布[11]、[12],往往过于限制性,无法捕捉现实世界系统的复杂性。为了提高灵活性,引入了混合模型,其中高斯混合模型(GMM)是最著名的例子[13]、[14]。尽管GMM原则上可以近似任何连续密度(给定足够的组件),但它需要估计大量参数。相关的程序,包括期望最大化(EM)算法[15]以及Akaike信息准则(AIC)或贝叶斯信息准则(BIC)[16]、[17]等选择标准,计算量很大,并且容易遇到收敛问题,特别是对于大规模数据集。Copula理论提供了一种替代方案,它将边际分布与其依赖结构解耦,并通过copula函数将它们联系起来[5]、[18]。然而,这种方法的性能对边际分布和copula的选择非常敏感,任一方面的不良指定都会导致误导性结果。其他参数框架,如贝叶斯网络[19]、[20],也被采用。相比之下,非参数方法提供了一种灵活的、数据驱动的替代方案。在这些方法中,核密度估计(KDE)是一项核心技术,因其理论优雅性和能够近似广泛的分布形状而受到重视[10]、[21]、[22]。KDE通过在每个数据点中心放置一个核函数并求和它们的贡献来构建估计值,这一思想在从电力系统[23]到图像识别[24]等多个领域得到了广泛应用。尽管KDE很有吸引力,但其实际实现面临几个持续存在的挑战:在样本空间中保持计算效率、选择合适的核函数和带宽以及处理密度泄漏。这些困难一直是研究的重点,特别是在多变量设置中,它们变得更加复杂。
对现有研究领域的考察表明,大多数解决方案都是孤立开发的,以解决特定的挑战。样本空间中低计算效率的问题从根本上受到O ( M N D ) 密度评估的复杂性的限制,其中M 表示评估的网格点数量,N 表示样本数量,D 表示数据维度。一种常见的策略是使用快速傅里叶变换(FFT)[25]、[26]、[27]在频域中重新定义问题,以加速计算。核函数的选择是另一个考虑因素,但通常被认为次要的,因为常见核函数(例如高斯、Epanechnikov [10])之间的性能差异通常与带宽的决定性影响相比微不足道。因此,带宽选择已成为最关键的挑战,并成为广泛研究的重点。数据驱动的带宽选择器通常分为两大类。第一类包括交叉验证(CV)方法[28],其中经典的最小二乘交叉验证(LSCV)是一个著名的例子[29]。尽管LSCV在渐近上是最优的,但它具有高方差和禁止性的O ( N 2 ) 计算成本,这促使人们开发了许多旨在提高稳定性和效率的变体,包括有偏CV [30]、完全CV [31]和修剪CV [32]。第二类包括插件方法。与依赖数据分割的CV方法不同,插件方法通过将未知密度函数的估计值(通常是平方二阶导数的积分)代入渐近均值积分平方误差公式[10]来解析地推导出最优带宽。已经开发了各种多变量插件选择器来利用不受约束的带宽矩阵[33]、[34]、[35]。此外,最近的技术解决了传统方法的局限性或结合了先验信息。这些包括贝叶斯推断[36]、[37]、基于小波的方法[24]、空间自适应KDE [38]、[39]、基于扩散的估计器[40]和基于特征函数的优化[41]。
KDE中的另一个关键挑战是边界效应,通常称为密度泄漏。标准核函数(如高斯核)假设支持是无界的,因此会在物理域之外分配非零概率质量,例如在x ?0处,这导致边界附近出现显著偏差。现有的解决方法通常分为两类:基于变换的方法和不对称核函数。基于变换的方法,包括数据反射[42]和对数变换[43],将有界域映射到无界域。相比之下,不对称核函数,如伽马[44]和贝塔[45]核,可以直接适应支持约束并实现最优收敛率。对于周期性变量,von Mises(vM)核通过尊重域的圆形特性提供了有效的估计器[46]。在多变量设置中,由伽马或贝塔密度构建的乘积核是边界一致的[47],但它们具有高计算复杂性。与对称核不同,这些方法缺乏基于FFT加速所需的卷积结构。
为了解决这些挑战,本文提出了一种自动化和统一的框架用于多变量密度估计。该方法在保持高计算效率的同时,实现了与专用非对称核相当的准确性,并系统地解决了带宽选择问题,消除了复杂、多模态和有界数据集中的边界泄漏。首先,使用离散余弦变换(DCT)在频域中重新定义了估计问题,这将计算复杂度与数据大小解耦,并通过其偶对称性质本质上减轻了密度泄漏。其次,引入了一个鲁棒且尺度不变的目标函数,并使用Adam算法和解析梯度进行优化,实现了快速、稳定和完全自动的带宽选择。最后,通过在理论模型和大规模海洋工程数据集上的广泛数值研究验证了所提出的方法。在一维到三维情况下,所提出的方法在准确性和计算效率方面始终优于传统的KDE和代表性替代方法。本文的其余部分组织如下。第2节回顾了KDE的理论背景及其相关挑战。第3节介绍了所提出的方法论。第4节详细介绍了在理论模型上的数值研究。第5节介绍了所提出框架在大型海洋工程数据集上的应用,第6节提出了结论性意见和未来研究的展望。
章节片段
理论背景
本节介绍了KDE的基础知识,为后续分析提供了数学基础。首先介绍了KDE的公式化,然后讨论了带宽选择策略,并总结了实际应用中的关键挑战。
所提出统一框架的方法论
为了克服经典KDE中的计算成本、带宽选择和密度泄漏挑战,本节介绍了所提出方法的设计。该方法包括三个核心阶段:(1)使用DCT在频域中重新定义KDE问题以提高计算效率;(2)构建一个鲁棒、可微的目标函数来指导优化;(3)应用Adam优化器来确定最优带宽向量。
使用理论模型的数值验证
为了在具有已知PDF的理论模型上验证所提出的频域方法,本节进行了系统的数值研究,涉及三个方面:解析梯度的验证;以及在复杂单变量和双变量模型上的性能评估。对于这两种情况,分析包括单次试验的密度重建和在100轮蒙特卡洛模拟(MCS)上进行的统计稳健性评估。
数据集描述
为了评估所提出方法在现实且具有挑战性问题上的性能,我们使用了美国国家可再生能源实验室的高保真数据集。这些数据来自公开可用的基准“美国浮动风力阵列参考站点条件 ”,该基准为海上风系统的建模和验证提供了国际公认的标准[56]。
对于这项研究,我们选择了来自缅因湾的测量记录
结论
本文介绍了一种用于多变量概率密度估计的新框架,专门为处理大型和复杂数据集带来的挑战而设计。该方法通过在频域中重新定义带宽选择问题实现了显著的计算优势,这种技术还为边界效应提供了稳健的解决方案。这项工作的主要贡献总结如下:
CRediT作者贡献声明
Futai Zhang: 撰写——原始草稿、方法论、资金获取、正式分析、概念化。Jun Xu: 撰写——审阅与编辑、方法论、资金获取、概念化。Dan Wang: 撰写——审阅与编辑、概念化。