基于相似性评分函数优化时间序列扩散模型训练：在IMU数据周期与非周期运动中的应用

【字体：大中小】 时间：2025年09月18日 来源：Frontiers in Artificial Intelligence 4.7

编辑推荐：

　　本文提出一种新颖的类优化全局对齐核（C-Opt GAK）方法，通过相似性评分函数监控扩散模型（DDPM）的训练与去噪过程，显著减少训练周期与计算资源消耗。研究证明该方法在人体活动识别（HAR）和攀爬运动数据集上均能提升生成数据质量，并改善下游分类任务的性能，为时间序列合成提供了可解释的优化策略。

1 引言

在机器学习中，分类器常用于识别样本中的模式以区分不同类别。然而，真实数据往往存在类别样本缺失或质量较差的问题。去噪扩散概率模型（DDPM）已成为强大的生成工具，能够扩充样本空间，例如在计算机视觉或时间序列领域。这些合成样本可用于提升分类任务的效果，因此合成数据需在增加数据集多样性的同时保留活动的主要信息。

DDPM的训练基于对数似然最大化，以使生成样本分布与真实数据匹配。其损失函数定义为U-Net预测的噪声与扩散过程前向所加噪声之间的均方误差，从而确保合成数据的生成。然而，该损失函数无法评估生成数据的质量或其与真实序列的相似性。在图像生成中，可依赖人类评分者评估生成质量，但对于时间序列数据，这种方法不可行。一些研究采用定性分析方法，如使用t-SNE分解方法或分析真实与生成信号之间的概率密度函数，但这些方法需要视觉确认，无法将相似性信息简化为单一数值。另一种方法是使用判别评分，训练神经网络区分真实与生成信号，但这一过程耗时且需根据数据集调整网络架构。还有研究使用生成对抗网络（GAN）生成金融领域的合成序列，并使用Kullback-Leibler（KL）散度、Wasserstein距离、能量距离和最大均值距离等概率分布度量进行评估，但这些度量未考虑信号的时间进程，在时域中作为比较度量存在疑问。其他方法包括基于规则的分类器评估合成数据，如使用逻辑学习机自动生成规则集并比较规则之间的相似性，或使用上下文Fr^échet起始距离（FID）结合TS2Vec模型将时间序列的每个时间步映射到上下文表示。还有一些研究使用相似性评分函数评估真实与生成信号之间的相似性，例如计算自相关估计器的绝对误差或应用列间配对相关性等方法。最后，部分研究使用底层分类或回归任务客观评估生成信号的质量，通过评估添加合成数据前后分类器的可分离性进行验证。

总之，文献中存在多种评估生成数据质量的方法，但它们要么未用于监控扩散模型的训练进度，要么不适用于该目的。因此，我们引入了一种新的时间序列比较分析领域的相似性评分，并将其集成到时间序列扩散模型的训练和去噪过程中，通过评估模型生成可比信号的能力来实现这一目标。我们开发了一种称为类优化全局对齐核（C-Opt GAK）的方法，通过首先计算信号的功率谱密度（PSD），然后基于先前的信号分析估计相似性评分的拟合度，来优化相似性评分描述数据集的能力。我们将该优化过程与多个其他目标进行比较，以展示方法的鲁棒性，并将该度量与其他已建立的时间序列度量（如均方根误差（RMSE）、Pearson相关系数和余弦相似性）进行了评估。

本工作的第二个贡献是将相似性度量集成到生成扩散模型的训练和去噪过程中，以控制其过程、加速训练同时保持或提高数据质量。据我们所知，这是首次使用时间序列相似性评分函数监控扩散模型的训练和去噪进度。迄今为止，训练进度的监控仅依赖损失值 alone。

本工作的主要贡献包括：

•
提出一种新的评估合成生成时间序列信号的相似性评分函数，并使用优化过程使其最适配真实数据。
•
将相似性评分函数集成到DDPM的训练进度中，减少训练周期数同时保持或甚至提高生成序列的质量。
•
使用相似性评分函数减少去噪步骤数量，而不降低生成信号在底层分类任务中的质量。

2 方法

这是一项基于Oppel和Munz（2025）工作的后续研究。数据处理、类别选择、DDPM模型（IMUDiffusion）和分类器配置的详细信息请参见原始出版物。

2.1 数据集

我们使用两个不同数据集测试所开发的方法。第一个是关于人体活动识别（HAR）数据集中的人体周期运动，下文称为HAR数据集。第二个是关于使用仪器化保护装置跟踪攀爬运动，下文称为“攀爬数据集”。与HAR数据集相比，后者不包含周期运动，因为攀爬者每次落入绳索以及墙上的每次移动都会产生保护装置时限性的运动行为。如无特别说明，评估和分析均在人体活动识别数据集上进行。

2.1.1 人体活动识别数据集

本研究使用Ba^?os等人（2012）提出的基于惯性测量单元（IMU）的HAR数据集。原始目的是分析IMU位移的影响。他们记录了17名参与者执行33项活动，我们从中选择了四项：行走、跑步、跳跃和骑行。由于部分参与者未参与所有活动，我们将参与者池减少至12名参与了所有活动的人员。为便于阅读，我们将他们称为PID x（参与者ID x，x∈1,…,16）。此外，我们仅使用位于右大腿且具有理想放置设置的IMU，这保证了沿IMU轴的可比运动模式。

2.1.2 攀爬数据集

攀爬数据集最初由Oppel和Munz（2022）记录。有关研究协议的详细信息请参见原始出版物。总共记录了超过150次攀爬坠落以及超过60次来自不同攀爬者的攀登，包括不同的攀爬场景。本文中，我们将数据集减少至37次攀爬坠落和19次攀登，导致故意不平衡的数据集，比例为1:9。攀登和坠落使用相同的保护装置和电子硬件记录。攀爬坠落可根据松弛量（松散绳索）和坠落势能进一步分为五种配置。坠落势能指攀爬者高于最后一个锚点的高度。这两个参数影响坠落距离和动力学。五种配置分别为：无松弛，坠落势能为0m、0.25m和0.5m；以及坠落势能为0m，松弛量为0.5m和1m。保护装置被牢固地握在保护者手中，且保护装置的制动机制被停用，以保证至少两米的坠落。每次坠落我们使用沙袋代替攀爬者，以避免危及人类攀爬者。沙袋上附有时序同步的IMU，以提取坠落本身的所需标签信息。攀登记录可进一步分为六类，包括攀爬者的 clipping位置（伸展或围绕胸部）、系统中的松弛（无松弛或约1.5m松弛）以及保护类型（主动或被动）。

为记录该数据集，我们将一个IMU和三个双极霍尔传感器集成到保护装置中，以记录其攀爬时的运动行为。

2.2 信号处理

两个评估数据集需要不同的预处理步骤，本节将介绍这些步骤以及两个数据集之间的一些共同处理步骤。

2.2.1 HAR数据集的预处理步骤

HAR活动以50Hz的采样率记录。我们进一步使用滑动窗口宽度为160时间步长和重叠40时间步长对数据进行序列化。这些信号使用短时傅里叶变换（STFT）转换为频域，窗口大小为22，重叠为20。窗函数使用Hanning函数。频域信号然后作为扩散模型的输入。

2.2.2 攀爬数据集的预处理步骤

攀爬数据集以220 Hz的采样率记录每个传感器类型：加速度计、陀螺仪和霍尔传感器状态。使用加速度计和陀螺仪的数据，我们使用AHRS算法（Madgwick等人，2011）将IMU从其本地坐标系旋转到地理坐标系。之后，使用沙袋或攀爬者的信息将数据分为三个不同类别：坠落、拉绳和静止。拉绳和静止两个类别均从攀登中提取，并包含不同类型的信息。拉绳仅包括在保护装置中注册了绳索移动的序列。此外，我们在初始注册绳索移动之前添加了20个样本，以包括保护装置的运动，因为保护装置通常在放出绳索之前被移动。这将静止类别减少到未注册保护装置运动的时刻或由于主动保护在放出绳索之前的移动。坠落序列的开始时间选择与拉绳类别序列相同。下一步，每个序列设置为160时间步长，然后使用与HAR数据集相同的STFT方法转换为频域。信号在开始训练DDPM之前进行归一化。

2.2.3 功率谱密度

合成数据的主要目标是增加数据集的多样性，同时保留活动的主要信息。在时域中比较序列可能导致使用高度相似的序列，从而不增加数据集内的方差，或者更糟，可能导致假设序列相当不相似，尽管具有活动的关键信息，但与真实序列偏离。为解决该问题，我们使用Welch方法（Welch，1967）估计信号的功率谱密度（PSD）。该方法通过首先将信号分为K个加窗子序列来估计PSD。

x_ω,k = ωx_k, with k=0,1,...K-1 (1)

其中ω表示窗函数。对于每个子序列，然后计算周期图P_{x_ω,k,M}(ω)

P_{x_ω,k,M}(ω) = (1/M) |∑_m=0^M-1 x_ω,k(m) · e^-j2πm/M|² (2)

其中M表示每个子序列的序列长度。最后，通过对所有周期图取平均，我们得到功率谱密度

?_x(ω) = (1/K) ∑_k=0^K-1 P_{x_ω,k,M}(ω) (3)

使用该方法去除了序列进程中的时间依赖性。其背后的思想是专注于信号中代表活动的主要特征，独立于时间位置。

2.3 相似性度量

2.3.1 类优化全局对齐核

全局对齐核（GAK）k(x,y)是一种将一个序列x映射到另一个序列y的方法。如Cuturi（2011）所述，它对所有对齐距离的软最小值进行指数化，并定义为

k(x,y) = ∑_π∈A(n,n) e^-D_x,y(π), (4)

其中π是一条对齐路径，A(n,n)是长度为n的两个序列x和y之间所有对齐的集合，D是对齐π的成本。对齐路径是将序列x和y最佳映射到彼此的索引对序列。成本D由方程5定义，其指数化将每个元素限制在[0,1]范围内。

D_x,y = d(x,y) - ln(2 - exp(d(x,y))), with d(x,y) = -φ(x,y)/(2σ²) and φ(x,y) = √((x-y)²) (5)

每个计算成本函数的操作都是逐元素操作。缩放因子σ负责距离函数的缩放，从而影响成本函数D，见图1。总之，通过增加σ，成本函数较慢地接近其极限值0。

最后，我们根据方程6对全局对齐核k(x,y)进行归一化。

?(x,y) = k(x,y)/√(k(x,x)·k(y,y)) ∈ ? : ?(x,y) ∈ [0,1] (6)

2.3.1.1 最优σ值的估计

GAK直接依赖于缩放因子σ∈?:σ>0。它是一个敏感参数，负责两个序列之间相似性的选择程度。高选择程度意味着数据中的小变化能够显著改变GAK的值。值越低，选择程度越高。Cuturi（2011）建议基于两个时间序列之间各种时间步长的中值距离进行计算并缩放。甚至可以使用缩放中值距离的倍数。我们通过计算训练集和验证集序列之间的GAK来评估他们的方法，这些序列应具有高度相似性。尽管它导致了平均σ值为7.15·10^-4±4.87·10^-4，相当于高选择程度，因此使其无法用于我们的概念。因此，我们改变了估计最优缩放因子的方法。如前所述，我们假设训练集和验证集序列之间具有高度相似性。因此，我们执行优化，通过计算所有序列对之间平均GAK值的最大值，条件是标准偏差在[0.09,0.12]范围内。由于活动的循环行为，我们假设训练集和验证集数据之间具有高度相似性。因此，我们分析了这些集之间的相似性，结合相似性评分，最终决定了前述范围。由于这是主观评估，需要关于底层数据集的知识。数学公式如下：

C_GAK = max(??(x,y)), subject to σ?_? ∈ [0.09,0.12], (7)

其中??(x,y)和σ?_?分别是GAK值的平均值和标准偏差。这种适应的GAK度量将进一步称为类优化全局对齐核（简称C-Opt GAK）。

最优σ值识别的可视化表示见图2。它可视化了一系列σ值上的相似性评分。深蓝色区域定义了根据方程7满足条件的区域。红色曲线及其斜率描述了最相似序列的平均值和标准偏差。根据输入序列，σ值能够改变GAK值的解释，比较图2a、b。

2.3.2 不同优化约束的影响和评估

如前所述，标准偏差σ?_?的范围是一个主观过程，取决于数据集。我们将优化过程中选择的范围与另外两个优化约束进行了比较，并检查了它们对分类任务的影响，并分析了它们之间的合理性。三个范围如下：

•
σ?_?1 = [0.01,0.03]
•
σ?_?2 = [0.09,0.12]
•
σ?_?3 = [0.18,0.22]

它们在图2a、b中示例性可视化。视觉分析显示，范围直接影响两个信号之间相似性的解释。关于其影响的更详细分析见图4。在那里，我们为每个范围分别比较了两个序列（它们的PSD）。首先，我们感兴趣的是最相似的两个序列。因此，我们计算了一个随机预选真实序列与所有可用合成序列之间的相似性评分。然后我们选择了返回最高相似性评分的合成序列。结果在图4a中可视化。范围σ?_?2和σ?_?3最终导致序列在视觉上确认了它们之间的高度相似性。尽管它们的评分值不同。由于σ?_?2返回了一个合理的评分值0.9693，σ?_?3返回了0.872的较低值。最高评分值是通过使用范围σ?_?1时计算的。它导致了0.9925的值，表明两个序列之间高度相似。尽管它们的相似性明显较低。

在第二种方法中，我们分析了根据相似性评分最不相似的序列，并比较了三个标准偏差范围对其他范围的影响。示例性结果如图4b所示。最不相似序列的评分值对所有范围都是相同的。尽管再次，C-Opt GAK评分值在0.021和0.847之间变化，这表明要么高度相似，要么根本不相似。通过视觉分析序列，很明显，0.847的高评分值不是一个合理的值。剩下的两个评分值0.021和0.194都是合理的，因为值取决于应用本身。

2.3.3 相似性度量比较

我们选择了三个时间序列相似性度量来评估我们的C-Opt GAK度量——余弦相似性、Pearson相关系数和均方根误差（RMSE）。每个度量用于计算时域中的相似性评分，此外还分析信号功率谱密度之间的相似性。

两个序列x = (x₁,…,x_n)和y = (y₁,…,y_n)之间的余弦相似性s_c通过取两个序列之间的点积并另外使用它们的幅度||x||和||y||进行归一化来计算：

s_c(x,y) = (xy)/(||x||·||y||). (8)

第二个相似性度量是Pearson相关系数s_p：

s_p(x,y) = [n∑_ix_iy_i - (∑_ix_i·∑_iy_i)] / √{[n∑_ix_i² - (∑_ix_i)²]·[n∑_iy_i² - (∑_iy_i)²]}, ?1<>

最后，RMSE计算如下：

s_r(x,y) = √[∑_i(x_i-y_i)²/n] (10)

余弦相似性和Pearson相关系数都在[-1,1]范围内，RMSE计算的评分值在?范围内。

2.3.4 相似性度量之间示例序列的视觉分析

图5可视化了一个示例序列，显示了来自PID 2行走类的x方向加速度一次在时域，一次是其功率谱密度（图中的红色曲线）。我们已经在视觉上将该序列与根据所有四个度量从验证集中选择的最相似序列进行了比较。为了确定最相似的序列，我们分别计算了所有传感器轴上的相似性评分，然后对它们进行平均。计算是在序列的功率谱密度之间进行的。余弦和相关度量选择了相同的序列，而RMSE和C-Opt GAK方法选择了不同的序列。余弦和相关度量之间选择相同序列在所有类别中都被观察到。因此，我们决定在分析中不再考虑相关度量。使用RMSE作为相似性评分的缺点之一是评分值本身缺乏可解释性。唯一可以做的假设是：评分值越低，两个序列之间的相似性越高。视觉上，RMSE和C-Opt GAK选择的序列都显示出与训练集序列的高度相似性。因此，我们也在进一步分析中排除了RMSE评分。

2.4 去噪扩散概率模型

IMUDiffusion模型是一种扩散模型，专门设计用于基于多轴IMU合成时间序列序列。它最初由Oppel和Munz（2025）引入，他们通过改进底层分类任务（分离人类运动活动）显示了生成序列的有效性。模型描述可以在他们的论文中找到。他们将扩散模型训练了4,500个周期，这将作为本研究的参考。

对于噪声调度器，应用了线性调度器。它通过为每个传感器选择单独的扩散率来适应多传感器问题。

2.4.1 在攀爬数据集上的应用

加速度计和陀螺仪的调度器beta值与在HAR数据集上训练DDPM时的值相同，绳索速度的beta值设置为β_velo = 9e-4。

DDPM在每个记录上单独训练，以保证合成生成和真实序列之间的高度相似性。记录包括坠落序列的单个序列以及拉绳和静止类别的多个序列。攀登记录中的样本数量根据拉绳注册的数量而变化，最多包括27个序列。

2.5 分类器

与扩散模型一样，我们依赖Oppel和Munz（2025）引入的相同分类器架构。这允许结果之间的可比性，以分析相似性评分的有效性。分类器由一个卷积神经网络组成，该网络仅沿时间维度对输入进行卷积。我们使用两个卷积层，内核大小为c_kernel = (1 × 5)，每个有2个滤波器，然后是一个Max-Pooling层，以沿时间将维度减少两倍。在Max-Pooling层之后，使用了一个额外的卷积层，具有4个滤波器，且内核大小与先前的卷积层相同。最后，网络的最后部分由三个全连接层组成，分别具有128、32和16个神经元。每个全连接层后面跟着一个ReLU激活层和一个dropout层，p = 0.3。网络的最后一层由四个神经元组成，后面跟着一个softmax层。相同的分类器模型用于两个数据集。

2.6 实验

相似性度量余弦相似性和C-Opt GAK用于监控DDPM的训练和去噪过程。两种度量都用于比较序列的功率谱密度。此外，余弦相似性还用于比较时域中的序列。

在每个实验中，我们使用留一主体交叉验证（LOSOCV）方法训练DDPM和分类器。每个参与者一次被排除在训练和验证集之外，仅用于测试。由于我们总共有12名参与者，我们训练了12个分类器模型并分别评估结果。相同的方法论已用于训练DDPM。尽管DDPM的训练还按类别分开，以保证合成序列的唯一标签。这导致总共48个DDPM。

2.6.1 监控DDPM训练

通过使用相似性评分函数监控DDPM的训练进度，我们能够在任何期望的周期估计合成序列的质量。为此，我们在特定周期之后的全3,000个去噪步骤中，对频率域中的128个随机正态分布序列进行去噪。尽管这是一个耗时的过程，我们将监控周期的数量减少到每50个周期一次。现在，C-Opt GAK和余弦度量之间的终止标准不同。使用余弦度量监控训练过程，我们搜索该度量在真实训练序列和合成序列批次之间的局部最大值。此外，由于评分值可能波动，我们继续训练另外100个周期，包括两个监控步骤，以确保已达到最优。C-Opt GAK方法允许我们更具体地制定终止训练过程的标准。通过使用真实训练和验证集优化缩放因子σ，我们还估计了相似性评分的范围。因此，我们期望真实训练序列和合成序列之间的相似性评分在同一范围内。实际上，我们要求至少25%的相似性评分在该范围内。如果两个标准都满足，我们停止训练过程。

2.6.2 监控去噪过程

调度器负责控制去噪过程。最初，我们将去噪步骤的数量设置为3,000。借助相似性评分，我们能够监控这个过程并通过将它们与真实训练序列进行比较来估计合成序列的质量。我们使用相似性评分的信息在合成序列达到最佳质量时停止去噪过程。再次，我们允许两个额外的监控步骤以保证达到局部最优。因此，如果在两个连续步骤中相似性评分下降，我们停止去噪过程。再次，如果监控每个去噪步骤，这是一个非常耗时的过程。因此，我们仅监控每30个步骤。

2.6.3 HAR分类任务的训练集

为了客观评估合成序列的质量，我们将这些序列添加到训练集中，用于分类四个活动：行走、跑步、跳跃和骑行。总的来说，我们比较了9个训练集，这些训练集用于训练具有相同架构和初始权重的神经网络分类器。首先，我们有两个基线集——即“全集”和“2样本集”。全集包含来自11名参与者的可用数据的80%。这些参与者中剩余的20%用于验证分类器的性能。最后，留出的参与者用于测试。因此，测试集始终相同，独立于训练集。对于2样本集，训练数据包括每个参与者从真实样本中随机选择的2个样本，导致集合中总共有22个真实样本。相同数量但不同的样本被选择用于验证集。最终的基线集是完整DDPM集。它包含使用IMUDiffusion模型生成的合成序列，而没有使用相似性度量来监控训练和合成过程。意思是，IMUDiffusion模型已经训练了4,500个周期，并且序列已经去噪了3,000步。相同的真实序列来自2样本基线集，用于训练扩散模型。

分类器与基线集获得的结果作为参考，与使用包含合成序列的不同训练集训练分类器获得的结果进行比较，这些合成序列是在相似性度量的帮助下生成的。这两个度量是C-Opt GAK和余弦相似性，并且要么应用于监控IMUDiffusion模型的训练，要么应用于其去噪过程。根据相似性度量，每个生成了不同的合成样本，这些样本分别用于训练分类器。一个额外的控制参数是相似性评分直接应用于时间信号还是应用于它们的功率谱密度。所有变体的总结如表1所示。总共评估了来自9个不同训练集的分类结果。为了进一步简化，我们使用前缀缩写“OT”（最优控制训练）表示包含根据第2.6.1节使用IMUDiffusion模型生成的合成序列的训练集。如果另外监控了去噪过程，则应用缩写“OT-D”（带去噪的最优控制训练）。

2.6.4 攀爬分类任务的训练集

记录的数量在坠落和攀登类别之间变化。因此，无法执行留一记录交叉验证。因此，我们将数据集分割了五次。分割是在记录上进行的。这保证了同一记录/攀登的放出绳索序列不会同时出现在训练集和测试集中。

在Oppel和Munz（2024）之前的一项研究中，他们分析了预测攀爬者落入绳索的不同时间窗口大小，并发现20个时间步的窗口大小是一个良好平衡的折衷方案。对于合成过程，我们已经将序列减少到160个时间步的窗口大小。然后通过使用新的20个时间步窗口大小和10的滑动进一步处理这些序列。数据序列化后，加速度和角速度被标准化，绳索速度被归一化，因为数据分布不正常，并且由于某些坠落情况下的异常速度。

为了分析相似性评分对使用DDPM生成的合成序列预测攀爬事件的影响，我们评估了六个数据集：

•
在真实上训练-在真实上测试（TRTR）：使用所有可用序列训练分类器，不包括保留的测试集。
•
带下采样的TRTR：由于数据集的类别不平衡，我们将攀登攀登中的多数类别采样到与坠落序列数量匹配。
•
带上采样的TRTR：我们通过复制坠落序列来增加样本空间，直到达到类别平衡。
•
最后一步在合成上训练-在真实上测试（TSTR）：我们使用训练了4,500个周期的DDPM模型合成攀爬序列，然后用于训练分类器，训练过程中没有任何真实序列。
•
最佳步骤TSTR：我们在相似性评分估计合成和真实训练序列之间最优相似性的周期使用DDPM模型，并仅使用那些合成序列来训练分类器。

3 结果

结果部分分为三个部分。前两部分分析了将相似性评分集成到扩散模型的训练和合成过程中的发现。最后一部分讨论了使用合成序列训练分类模型的结果。

3.1 监控DDPM训练过程

我们将相似性评分集成到IMUDiffusion模型的训练过程中，作为某种早期停止标准（OT变体）。这使我们能够减少训练周期数。图6a可视化了训练周期数，直到训练过程被该早期停止标准终止。它分别显示了每个参与者和每个参与者执行的活动。在此图中，我们仅可视化通过使用C-Opt GAK相似性评分计算信号PSD之间获得的结果。所有三种方法的结果总结在图6b中可视化。结果进一步按四个活动划分。总的来说，我们可以看到训练

热点排行

新闻专题