STaTS:基于统计窗口合并的结构感知时间序列摘要方法

《Pattern Recognition Letters》:STaTS: Structure-Aware Temporal Sequence Summarization via Statistical Window Merging

【字体: 时间:2026年02月18日 来源:Pattern Recognition Letters 3.3

编辑推荐:

  结构感知的时间序列摘要方法STaTS通过BIC准则检测多时间尺度变化点,将序列压缩至1/30同时保留核心动态,在分类和预测任务中表现优于基线,并提升噪声鲁棒性。

  
Disharee Bhowmick | Ranjith Ramanathan | Sathyanarayanan N. Aakur
CSSE系,奥本大学,奥本,36849,AL,美国

摘要

时间序列数据通常具有潜在的时间结构、在局部平稳状态之间的转换、模式以及变异性的突发,而这些是标准表示学习方法在很大程度上所忽略的。现有模型通常处理原始数据或固定窗口序列,将所有时间步视为同等信息量,这影响了效率、鲁棒性和可扩展性。我们提出了STaTS,这是一个轻量级的、无监督的结构感知时间摘要框架,能够自适应地将单变量和多变量时间序列压缩成紧凑的、保留信息的令牌序列。STaTS通过基于贝叶斯信息准则(BIC)的统计差异准则检测多个时间尺度上的变化点,并使用简单函数(例如均值)或生成模型(如高斯混合模型GMM)来总结每个片段。这种方法可以将序列长度减少多达30倍,同时保留核心动态,并且无需重新训练。作为模型无关的预处理器集成到无监督编码器(如TS2Vec)中,STaTS在包括UCR-85/128、UEA-30和ETT在内的150多个数据集上保持了85-90%的完整模型性能,同时显著降低了计算成本。它还提高了对噪声的鲁棒性,并在保留与任务相关的结构方面优于均匀和基于聚类的基线方法。

引言

时间序列数据在金融、物联网(IoT)和医疗保健等多个领域中非常普遍,并随着传感技术的进步而持续增长。随着数据收集能力的扩展,记录的时间序列的长度和复杂性正在迅速增加,这对基于机器学习的序列理解框架提出了巨大的计算需求。这些模型通常处理全分辨率输入或应用固定大小的窗口,将所有时间步视为同等信息量。然而,序列往往具有捕捉信号关键细节的潜在结构,例如在局部平稳状态之间的转换、重复的模式以及变异性的突发,而这些是现有模型经常忽略的。这种假设导致处理效率低下和泛化能力差,尤其是在噪声、冗余或资源有限的情况下。这些挑战促使我们需要开发能够在保留与任务相关结构的同时实现高效和鲁棒学习的时间序列摘要方法。
时间序列表示学习方法通常分为两个极端。经典技术如PAA [1]、SAX [2] 和 DTW [3] 提供了高效的摘要,但依赖于均匀窗口化或符号编码,忽略了信号复杂性的动态变化。相比之下,深度模型如TS2Vec [4] 和 TS-TCC [5] 处理完整序列或使用固定滑动窗口,未能考虑语义转换。这种缺乏结构感知的方法引入了冗余,增加了计算量,并使令牌边界与真实的时间变化不一致。固定窗口方法还可能过度分割稳定区域和低估复杂区域,特别是在噪声条件下,均匀处理往往会突出虚假模式。
为了解决这些挑战,我们引入了STaTS(时间序列的结构感知令牌化),这是一个轻量级框架,通过将摘要与时间序列的底层统计结构对齐来压缩时间序列数据。如图1所示,STaTS使用基于BIC的准则在多个时间尺度上检测统计上显著的变化点,定义动态片段边界。然后通过其均值等简单函数对每个片段进行总结,形成紧凑的令牌,同时丢弃冗余和噪声。与学习到的池化或注意力机制不同,STaTS作为一个无监督的预处理步骤,可以与任何下游表示或预测模型结合使用。我们在来自UCR [6]、[7]、UEA [8] 和 ETT/Electricity [9]、[10] 的150多个数据集上评估了STaTS在单变量分类、多变量分类和长期预测方面的表现。尽管进行了显著压缩,STaTS仍保持了与均匀和基于聚类的摘要基线相当的性能,同时在噪声条件下提高了鲁棒性并保持了时间保真度。
我们的主要贡献有四点:(i) 我们提出了STaTS,这是一个结构感知的令牌化框架,使用基于BIC的变化检测准则在多个时间尺度上识别统计上连贯的片段;(ii) 我们引入了一个模块化且轻量级的摘要流程,将时间序列压缩超过30倍,同时保留了显著的模式,从而实现高效的下游建模;(iii) 我们展示了STaTS以模型无关和无监督的方式运行,无需架构更改或基于梯度的调整,使其易于与现有的时间序列编码器兼容;(iv) 我们提供了一个统一的接口,用于将STaTS适配到分类、预测和噪声下的鲁棒性评估中。

相关工作

时间序列分类(TSC)

时间序列分类(TSC)涉及根据时间模式和结构为时间序列分配标签。方法包括可解释的特征基方法、深度模型和集成技术。经典方法如Shapelets和Shapelet Transform提取用于可解释分类的判别性子序列[11]、[12],而符号方法如BOSS使用符号傅里叶近似来提高对噪声的鲁棒性[13]。集成模型达到了最先进水平

方法论

概述 给定一个多变量时间序列XRT×d,其中T是时间步的数量,d是维度数量,我们的目标是将X转换为一个更短的序列X?RT×d,其中T′远小于T,以便结果序列保留下游任务(如分类或预测)所需的底层结构。我们将此过程称为结构感知时间摘要。我们首先根据

实验评估

任务和数据 我们评估了统计摘要在三个核心时间序列任务中的影响:单变量分类、多变量分类和多变量预测。对于单变量分类,我们使用了UCR-128 [27] 和 UCR-85 [7] 数据集,这些数据集涵盖了心电图(ECG)、传感器、音频和手写形状等领域。这些数据集包含2到60个类别,序列长度从几十到几千个时间步不等,提供了广泛的时间范围

结论

我们介绍了STaTS,这是一个轻量级的结构感知时间摘要框架,通过将摘要与信号的内在结构对齐,将时间序列压缩成紧凑的、保留信息的表示。STaTS通过基于BIC的准则在多个时间尺度上检测统计上显著的变化点,并总结每个连贯的片段。当与TS2Vec集成时,STaTS在单变量和多变量任务上达到了竞争性能

未引用的参考文献

表1.

CRediT作者贡献声明

Disharee Bhowmick:撰写 – 审稿与编辑,撰写 – 原稿,验证,软件,方法论,调查,概念化。Ranjith Ramanathan:撰写 – 审稿与编辑,监督,项目管理,方法论,调查,资金获取。Sathyanarayanan N. Aakur:撰写 – 审稿与编辑,撰写 – 原稿,可视化,监督,软件,资源,项目管理,方法论,调查,资金获取,

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

本工作得到了美国国家科学基金会(NSF)的IIS 2348689和IIS 2348690资助,以及美国农业部(USDA)的2023-69014-39716奖项的支持。我们感谢UCR-85、UCR-128和UEA-30数据集的作者公开提供了这些数据。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号