从数据增强到数据翻译:利用条件分层变分自编码器生成数据,提升浮动海上风力涡轮机的监测系统性能

《Engineering Applications of Artificial Intelligence》:From augmentation to translation: Data generation by conditional hierarchical variational autoencoder, enhancing monitoring mooring systems in floating offshore wind turbines

【字体: 时间:2025年10月31日 来源:Engineering Applications of Artificial Intelligence 8

编辑推荐:

  本文提出条件分层变分自编码器(CHVAE)用于浮式海上风力涡轮机锚固系统的损伤数据生成与域适应。通过预训练-微调框架,CHVAE结合双重解码器与扩散过程优化,有效生成了不同腐蚀严重性(3%-5%至7%-10%)和海况条件下的张力时序数据。实验表明,基于CHVAE生成的数据使MNIST分类精度提升至90.5%,且在OC4平台跨锚固系统域适应中,FID指标为0.0725,MSE为0.4253,验证了其在多场景实时监测中的适用性。

  在海上风力发电领域,浮动式海上风力涡轮机(FOWT)的系泊系统完整性至关重要,因为其退化会影响平台的动态行为。为了构建一个能够连续监测不同系泊系统的稳健机器学习健康监测系统,需要在各种健康、操作和海洋环境条件下获取数据。为此,我们提出了一种条件分层变分自编码器(CHVAE)生成模型,旨在实现同时的数据增强和领域转换,以生成所需的数据。CHVAE通过利用目标系泊系统的健康数据,能够在多种条件下生成逼真的损坏响应。我们首先评估了CHVAE在基于多数分布生成少数数据方面的性能,该实验在修改后的国家标准技术研究院(MNIST)基准数据集上进行了验证。这项实验将CHVAE变体与传统和近期的过采样方法进行了比较。其次,使用开源软件OpenFast模拟测试和训练数据集,以在Offshore Code Comparison Collaboration Continuation(OC4)半潜式平台(DeepCwind)FOWT基准上实现同时的数据增强和领域转换。通过视觉、统计和行为方法比较了OpenFast和CHVAE的记录。模拟使用了多样化的波种子来表示激励的随机性以及未检测到的损坏严重程度,评估了CHVAE的“一对一到所有”能力。对于未观察到的海况和损坏严重程度生成的记录在下游二分类任务中接近真实行为,展示了CHVAE在零样本、实时损坏识别方面的多功能性。

风能是实现零排放电力的关键,浮动式海上风力涡轮机(FOWT)在深海地区具有巨大的潜力,以捕捉额外的可再生能源(Williams et al., 2024)。Fig. 1描绘了一种典型的FOWT配置,突出了其浮动平台和系泊系统,使得FOWT能够在传统固定底座涡轮机无法操作的深水区域运行。到2022年,全球已安装了32个FOWT,总容量为121兆瓦(Edwards et al., 2023)。然而,未来十年的展望是,多个项目预计成功部署,到2030年达到18.9吉瓦的容量,到2050年达到264吉瓦(DNV, 2022)。在多种浮动支撑结构概念中,半潜式平台可以代表一种有价值的解决方案,当需要通过水面上的浮力来实现稳定时(Chen and Kim, 2021, Edwards et al., 2023)。系泊系统在浮动半潜式平台中至关重要,因为它们提供了平台保持位置和操作功能(Chen and Kim, 2021)。此外,它们还显著影响项目的经济可行性(Nava et al., 2019)。

尽管FOWT前景广阔,但准确模拟其行为和监测其系泊系统的状况仍然是一个主要挑战,特别是在开发这些系统的数字孪生(DT)方面(Longman et al., 2023)。由于安装的平台数量有限,难以收集足够的数据,特别是损坏状态下的数据。此外,使用物理模型模拟系泊系统行为既计算密集又容易产生不确定性。解决这些挑战需要创新的方法,以全面理解和管理FOWT的系泊系统。

在系泊系统的结构健康监测(SHM)中,各种环境和操作条件下的数据往往不平衡且组织不够完善(Tamuly et al., 2025, Fathnejat and Nava, 2025)。损坏状态下的数据尤其稀缺,且不如健康状态下的数据系统化收集,这在开发条件监测系统时是一个主要挑战(Sharma and Nava, 2024, Fathnejat et al., 2023, Altabey et al., 2023, Omid and Liang, 2019, Rezaniaiee Aqdam et al., 2018, Ghiasi et al., 2019, Fathnejat et al., 2014, Ahmadi-Nedushan and Fathnejat, 2022, Fathnejat and Ahmadi-Nedushan, 2017, Torkzadeh et al., 2016, Fathnejat and Ahmadi-Nedushan, 2020)。这一挑战在新系泊系统刚部署且仍处于健康状态时尤为明显,使得期望获得涵盖所有操作海况(如波浪、洋流和风)的全面损坏数据变得不现实。即使损坏数据可用,海况的多样性也会进一步复杂化准确检测,可能降低性能。解决这些问题对于推动浮动海上风力涡轮机结构健康监测的可靠性和有效性至关重要。

近年来,人工智能(AI)的进步使其在海洋和海上能源系统中的应用日益广泛,展示了在不确定情境和数据有限条件下进行监测、控制和诊断功能的巨大潜力。机器学习已被应用于波浪能领域,以降低运营成本并提高诊断准确性,利用了像Mutriku波浪发电厂这样的真实实验数据(M’zoughi et al., 2024b)。混合系统中,为了减轻平台振动,已经研究了元启发式控制策略(M’zoughi et al., 2024a)。AI方法已被建立用于浮动风力涡轮机,专注于实时预测涡轮机推力(Jiang et al., 2019)、使用神经网络预测运动和系泊载荷(Medina-Manuel et al., 2024),以及开发AI在环测试平台以支持基于数字孪生的验证(Jiang et al., 2024)。这些贡献突显了AI在海上系统分析中的日益重要性,并为进一步研究数据稀缺条件下的智能SHM解决方案奠定了基础。

为了应对这一挑战,研究者们提出了领域适应(DA)方法。这些方法将知识从具有充足标签数据的源域转移到具有有限或无标签数据的目标域,即使数据分布不同但相关。最近的DA技术已被应用于结构健康监测中的损坏检测(Ghiasi et al., 2025, Chen et al., 2023, Giglioni et al., 2024, Ragab et al., 2021)。然而,正如Ragab et al. (2021)所指出的,使用DA时的一个显著挑战是检测性能的明显下降,尤其是在使用浅层神经网络作为分类器时。尽管DA方法有所进展,但损坏检测的准确性仍可能显著下降,有时甚至降至50%或更低。这种准确性下降凸显了进一步研究更稳健DA技术的必要性,以确保在目标域数据稀缺且可能与源域存在差异的挑战性条件下,仍能实现高检测精度。

为了解决这一准确性下降的问题,研究人员寻求利用深度生成模型(DGMs)的特性进行DA和领域转换。一个实施这一利用的框架包括训练DGMs以增强源域中的损坏相关数据,涵盖各种操作和环境条件,然后将训练好的DGMs应用于源域以估计目标域中对应损坏相关数据的特征(领域转换)。Fig. 2展示了这一框架,其中模型通过在域1中进行数据增强,获得在域2中生成少数数据的能力。

在这一背景下,Kiranyaz et al. (2024)提供了一种零样本轴承故障检测方法,能够识别新机器中的真实故障,无论其操作条件、传感配置或故障强度如何。该方法采用1D操作生成对抗网络(Op-GANs)来界定轴承从健康到故障状态的内在转变,这些转变在信号域中体现。

数据增强可以作为一种领域适应方法,当生成更广泛的各种环境和操作损坏相关数据时。数据分布不平衡可以通过对少数(损坏)数据进行过采样或对多数(健康)数据进行欠采样来纠正。应用DGMs代表了一种创新的方法,用于重采样,理解少数数据的分布和行为,并通过合成数据进行增强。研究表明,在解决不平衡数据集问题上,条件变分自编码器(CVAEs)优于条件生成对抗网络(CGANs)(Fajardo et al., 2021);本文中的FID分析表明,所提出的CVAEs比其CGAN对应物更具鲁棒性,这一发现在应用原始、均衡的MNIST和Fashion MNIST数据集时是相反的。目前,VAEs主要用于解决SHM领域中的几个问题,包括特征提取和数据维度减少(Cora?a et al., 2023, Ma et al., 2020, Pollastro et al., 2022, Mylonas et al., 2020, Lee et al., 2023)。

在类不平衡的SHM问题中,集成一个焦点损失优化的CNN分类器与VAE-GAN基础的增强,提出了一种新的方法称为VGAIC-FDM,以提高在不平衡数据存在时的故障识别。结果呈现出高水平的诊断准确性和F1分数(Li et al., 2024)。Zhao et al. (2022)开发了归一化条件VAE与自适应焦点损失(NCVAE-AFL)框架,以提高在类不平衡结构健康监测挑战中的少数类诊断效率。 Li and Betti (2023)引入了一种创新的数据增强系统,利用条件VAE架构提供cepstral系数作为响应特征。

上述论文仅提出了旨在缓解深度学习基于损坏识别和分类中类不平衡问题的技术。然而,VAE尚未应用于生成真实规模的时间序列少数数据。此外,DGMs仅基于少数数据的分布进行训练,使用了少数类的信息。最近的一项研究表明,DGMs可以通过利用多数数据集来增强少数数据。在此背景下,Ai et al. (2023)提出了一种目标函数,允许VAEs通过利用基于多数的先验来增强少数数据。我们提出了一种新的条件分层变分近似,用于参数化扩散过程,旨在通过利用多数和少数数据的特征来构建少数数据分布。分层VAE(HVAE)通过引入多个随机潜变量或分布改进了VAE架构(Havtorn et al., 2021)。扩散过程代表了一种随机机制,通过时间逐步改变数据(Sohl-Dickstein et al., 2015)。我们提出的CHVAE方法采用两阶段预训练-微调训练框架,以在各种环境和操作条件下从健康状态(多数数据)生成和增强真实规模的损坏状态时间序列(少数数据)。

为了验证我们提出的DGM模型,我们使用了MNIST基准数据集(Lecun et al., 1998),并将其结果与Ai et al. (2023)中在MNIST数据增强上的结果进行了比较。我们还保持了与Ai et al. (2023)相同的条件和多类分类模型,以确保公平比较。

由于浮动海上风力涡轮机系泊系统的实际数据有限,本文分析的数据集是使用OpenFast(OpenFAST, 2023)基于DeepCwind项目开发的OC4平台数值模型生成的(Robertson et al., 2014a)。该模型被选为源系统,因为它已被验证与实验数据和计算流体力学(CFD)模拟(例如,Gorostidi et al., 2023)相一致。我们选择了目标系统的一种替代系泊配置,提供等效的预张力,但具有不同的单位长度质量和轴向刚度,这些计算方法在Studless链的Orcaflex手册中有所描述(Orcina, 2022)。

我们的研究部分按以下方式组织:第2节概述了方法,包括所提出的框架及其理论基础。第3节详细描述了对CHVAE进行的实验,涵盖了实现细节、评估标准和结果分析。这一部分突出了所提出框架在各种数据增强和领域转换情境中的有效性。最后,第4节总结了研究结果,得出了结论。

本研究提出了一种新的框架,该框架利用条件变分自编码器(CVAE)算法和扩散概率模型(DPM)的原理,重建少数数据的潜在分布,从而基本上促进了基于领域转换的实时监测系统的创建。在这一框架中,预训练阶段是在多数类上进行的,其中多数类包括源系泊系统的健康数据。所提出的VAE的可训练权重通过公式(1)进行优化。在训练过程中,第一个解码器学习重建标准化输入数据,同时第二个条件解码器学习重建和估计来自条件潜在空间的对应去标准化参数。为了验证CHVAE的性能,我们采用MNIST基准图像数据集作为下游应用,评估其在多种类不平衡场景下的表现。此外,我们保持与Ai et al. (2023)相同的条件和多类分类模型,以确保公平比较。

由于浮动海上风力涡轮机系泊系统的实际数据有限,本文分析的数据集是使用OpenFast(OpenFAST, 2023)基于DeepCwind项目开发的OC4平台数值模型生成的(Robertson et al., 2014a)。该模型被选为源系统,因为它已被验证与实验数据和计算流体力学(CFD)模拟(例如,Gorostidi et al., 2023)相一致。我们选择了目标系统的一种替代系泊配置,提供等效的预张力,但具有不同的单位长度质量和轴向刚度,这些计算方法在Studless链的Orcaflex手册中有所描述(Orcina, 2022)。

本文的实验部分包括以下内容:首先,我们评估CHVAE的数据增强质量,将其应用于MNIST基准图像数据集的多类分类任务,作为下游应用。其次,我们将所提出的框架与MGVAE进行比较,MGVAE由Ai et al. (2023)提出。第三,我们应用CHVAE来构建基于领域转换的实时监测系统,以处理浮动海上风力涡轮机(FOWT)的不同系泊系统。

为了确保公平比较,我们在预训练和微调过程中使用了与Ai et al. (2023)中使用的MGVAE相同的VAE架构。此外,我们还实施了基于CNN的VAEs用于CHVAE。通过这一实施,我们能够生成多样化的少数类数据,这在挑战性条件下尤为重要。

在本文中,我们首先对MNIST数据集进行了数据增强的评估,然后将其结果与MGVAE进行了比较。MNIST数据集由图像数据组成,是生成建模领域的知名基准,能够标准化地评估和比较不同类不平衡场景下的现代深度生成模型,如MGVAE。FOWT数据集由系泊线张力的时间序列数据组成,展示了结构健康监测中的复杂现实场景。

为了进一步增强结果,我们还实施了基于CNN的VAEs用于CHVAE。我们提出框架的可视化展示在Fig. 4中。通过试验和错误,我们选择了50作为VAE层输入的帧大小。因此,输入数据形状为(batch size, frame size, num features, num channels)=(batch size, 50, 3, 1)。输入数据通过多步骤过程进行归一化,以准备用于CNN模型的训练。步骤包括:对每个通道计算均值并减去,以将数据中心化到零;在减去均值后,确定每个通道的最大绝对值;然后,将数据除以最大绝对值,以确保其在-1到1之间进行缩放。

随后,去标准化参数,即每个帧大小和特征的均值和最大绝对值,被纳入到健康和损坏数据的去标准化参数(d1)和损坏数据(d2)中。在微调阶段,通过将d2的分布,确保这些分布尽可能接近pθz1的分布,以确保生成的损坏数据在各种操作和环境条件下具有多样性和丰富性。

为了进一步验证我们的方法,我们使用了MNIST基准数据集,将其结果与Ai et al. (2023)中在MNIST数据增强上的结果进行了比较。此外,我们保持了与Ai et al. (2023)相同的条件和多类分类模型,以确保公平比较。

为了评估CHVAE的性能,我们采用了视觉、统计和行为方法。通过这些方法,我们比较了CHVAE生成的数据与模拟数据在各种条件下的相似性。此外,我们还通过FID损失函数和MSE(重建误差)评估了生成数据与原始数据之间的相似性,这些数据由OC4平台的数值模型(Robertson et al., 2014b)通过OpenFast模拟得出。在评估中,我们考虑了不同的海况,以反映激励的随机性和未检测到的损坏严重程度。生成的记录在未观察到的海况和损坏严重程度下表现出与真实行为的相似性,这说明了CHVAE在零样本、实时损坏识别中的多功能性。

在本节中,我们对CHVAE在不同海况和损坏严重程度下的性能进行了评估。此外,我们还对CHVAE生成的损坏数据与模拟数据进行了比较,评估了它们在真实场景中的表现。我们还通过使用不同波种子来表示激励的随机性以及未检测到的损坏严重程度,展示了CHVAE在不同海况下的“一对一到所有”能力。生成的记录在下游二分类任务中能够很好地模拟真实行为,这进一步证明了CHVAE在零样本、实时损坏识别中的多功能性。

在类不平衡的SHM问题中,结合焦点损失优化的CNN分类器与VAE-GAN基础的增强,提出了一种新的方法称为VGAIC-FDM,以提高在不平衡数据存在时的故障识别。结果呈现出高水平的诊断准确性和F1分数(Li et al., 2024)。 Zhao et al. (2022)开发了归一化条件VAE与自适应焦点损失(NCVAE-AFL)框架,以提高在类不平衡结构健康监测挑战中的少数类诊断效率。 Li and Betti (2023)引入了一种创新的数据增强系统,利用条件VAE架构提供cepstral系数作为响应特征。

上述论文仅提出了旨在缓解深度学习基于损坏识别和分类中类不平衡问题的技术。然而,VAE尚未应用于生成真实规模的时间序列少数数据。此外,DGMs仅基于少数数据的分布进行训练,使用了少数类的信息。最近的一项研究表明,DGMs可以通过利用多数数据集来增强少数数据。在此背景下,Ai et al. (2023)提出了一种目标函数,允许VAEs通过利用基于多数的先验来增强少数数据。我们提出了一种新的条件分层变分近似,用于参数化扩散过程,旨在通过利用多数和少数数据的特征来构建少数数据分布。分层VAE(HVAE)通过引入多个随机潜变量或分布改进了VAE架构(Havtorn et al., 2021)。扩散过程代表了一种随机机制,通过时间逐步改变数据(Sohl-Dickstein et al., 2015)。我们提出的CHVAE方法采用两阶段预训练-微调训练框架,以在各种环境和操作条件下从健康状态(多数数据)生成和增强真实规模的损坏状态时间序列(少数数据)。

为了验证我们提出的DGM模型,我们使用了MNIST基准数据集(Lecun et al., 1998),并将其结果与Ai et al. (2023)中在MNIST数据增强上的结果进行了比较。我们还保持了与Ai et al. (2023)相同的条件和多类分类模型,以确保公平比较。

由于浮动海上风力涡轮机系泊系统的实际数据有限,本文分析的数据集是使用OpenFast(OpenFAST, 2023)基于DeepCwind项目开发的OC4平台数值模型生成的(Robertson et al., 2014a)。该模型被选为源系统,因为它已被验证与实验数据和计算流体力学(CFD)模拟(例如,Gorostidi et al., 2023)相一致。我们选择了目标系统的一种替代系泊配置,提供等效的预张力,但具有不同的单位长度质量和轴向刚度,这些计算方法在Studless链的Orcaflex手册中有所描述(Orcina, 2022)。

我们的研究部分按以下方式组织:第2节概述了方法,包括所提出的框架及其理论基础。第3节详细描述了对CHVAE进行的实验,涵盖了实现细节、评估标准和结果分析。这一部分突出了所提出框架在各种数据增强和领域转换情境中的有效性。最后,第4节总结了研究结果,得出了结论。

本研究提出了一种新的框架,该框架利用条件变分自编码器(CVAE)算法和扩散概率模型(DPM)的原理,重建少数数据的潜在分布,从而基本上促进了基于领域转换的实时监测系统的创建。在这一框架中,预训练阶段是在多数类上进行的,其中多数类包括源系泊系统的健康数据。所提出的VAE的可训练权重通过公式(1)进行优化。在训练过程中,第一个解码器学习重建标准化输入数据,同时第二个条件解码器学习重建和估计来自条件潜在空间的对应去标准化参数。为了验证CHVAE的性能,我们采用MNIST基准图像数据集作为下游应用,评估其在多种类不平衡场景下的表现。此外,我们保持了与Ai et al. (2023)相同的条件和多类分类模型,以确保公平比较。

在本文中,我们首先对MNIST数据集进行了数据增强的评估,然后将其结果与MGVAE进行了比较。MNIST数据集由图像数据组成,是生成建模领域的知名基准,能够标准化地评估和比较不同类不平衡场景下的现代深度生成模型,如MGVAE。FOWT数据集由系泊线张力的时间序列数据组成,展示了结构健康监测中的复杂现实场景。

为了进一步增强结果,我们还实施了基于CNN的VAEs用于CHVAE。我们提出框架的可视化展示在Fig. 4中。通过试验和错误,我们选择了50作为VAE层输入的帧大小。因此,输入数据形状为(batch size, frame size, num features, num channels)=(batch size, 50, 3, 1)。输入数据通过多步骤过程进行归一化,以准备用于CNN模型的训练。步骤包括:对每个通道计算均值并减去,以将数据中心化到零;在减去均值后,确定每个通道的最大绝对值;然后,将数据除以最大绝对值,以确保其在-1到1之间进行缩放。

随后,去标准化参数,即每个帧大小和特征的均值和最大绝对值,被纳入到健康和损坏数据的去标准化参数(d1)和损坏数据(d2)中。在微调阶段,通过将d2的分布,确保这些分布尽可能接近pθz1的分布,以确保生成的损坏数据在各种操作和环境条件下具有多样性和丰富性。

在本文中,我们首先对MNIST数据集进行了数据增强的评估,然后将其结果与MGVAE进行了比较。MNIST数据集由图像数据组成,是生成建模领域的知名基准,能够标准化地评估和比较不同类不平衡场景下的现代深度生成模型,如MGVAE。FOWT数据集由系泊线张力的时间序列数据组成,展示了结构健康监测中的复杂现实场景。

为了进一步增强结果,我们还实施了基于CNN的VAEs用于CHVAE。我们提出框架的可视化展示在Fig. 4中。通过试验和错误,我们选择了50作为VAE层输入的帧大小。因此,输入数据形状为(batch size, frame size, num features, num channels)=(batch size, 50, 3, 1)。输入数据通过多步骤过程进行归一化,以准备用于CNN模型的训练。步骤包括:对每个通道计算均值并减去,以将数据中心化到零;在减去均值后,确定每个通道的最大绝对值;然后,将数据除以最大绝对值,以确保其在-1到1之间进行缩放。

随后,去标准化参数,即每个帧大小和特征的均值和最大绝对值,被纳入到健康和损坏数据的去标准化参数(d1)和损坏数据(d2)中。在微调阶段,通过将d2的分布,确保这些分布尽可能接近pθz1的分布,以确保生成的损坏数据在各种操作和环境条件下具有多样性和丰富性。

在本文中,我们首先对MNIST数据集进行了数据增强的评估,然后将其结果与MGVAE进行了比较。MNIST数据集由图像数据组成,是生成建模领域的知名基准,能够标准化地评估和比较不同类不平衡场景下的现代深度生成模型,如MGVAE。FOWT数据集由系泊线张力的时间序列数据组成,展示了结构健康监测中的复杂现实场景。

为了进一步增强结果,我们还实施了基于CNN的VAEs用于CHVAE。我们提出框架的可视化展示在Fig. 4中。通过试验和错误,我们选择了50作为VAE层输入的帧大小。因此,输入数据形状为(batch size, frame size, num features, num channels)=(batch size, 50, 3, 1)。输入数据通过多步骤过程进行归一化,以准备用于CNN模型的训练。步骤包括:对每个通道计算均值并减去,以将数据中心化到零;在减去均值后,确定每个通道的最大绝对值;然后,将数据除以最大绝对值,以确保其在-1到1之间进行缩放。

随后,去标准化参数,即每个帧大小和特征的均值和最大绝对值,被纳入到健康和损坏数据的去标准化参数(d1)和损坏数据(d2)中。在微调阶段,通过将d2的分布,确保这些分布尽可能接近pθz1的分布,以确保生成的损坏数据在各种操作和环境条件下具有多样性和丰富性。

在本文中,我们首先对MNIST数据集进行了数据增强的评估,然后将其结果与MGVAE进行了比较。MNIST数据集由图像数据组成,是生成建模领域的知名基准,能够标准化地评估和比较不同类不平衡场景下的现代深度生成模型,如MGVAE。FOWT数据集由系泊线张力的时间序列数据组成,展示了结构健康监测中的复杂现实场景。

为了进一步增强结果,我们还实施了基于CNN的VAEs用于CHVAE。我们提出框架的可视化展示在Fig. 4中。通过试验和错误,我们选择了50作为VAE层输入的帧大小。因此,输入数据形状为(batch size, frame size, num features, num channels)=(batch size, 50, 3, 1)。输入数据通过多步骤过程进行归一化,以准备用于CNN模型的训练。步骤包括:对每个通道计算均值并减去,以将数据中心化到零;在减去均值后,确定
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号