
-
生物通官微
陪你抓住生命科技
跳动的脉搏
mLANet:基于循环神经网络的长时序预测创新模型及其在多元时间序列分析中的应用
【字体: 大 中 小 】 时间:2025年06月27日 来源:Knowledge-Based Systems 7.2
编辑推荐:
针对Transformer模型在时序连续性建模和因果依赖性捕捉的局限性,同济大学团队提出基于mLSTM与注意力增强卷积融合网络(mLANet)的新型框架。该研究通过AECCM模块实现1D到2D时序数据转换,结合并行时间窗口处理策略,在ETT等7个多元数据集上实现SOTA预测性能,显著提升长程依赖捕捉能力与计算效率。
随着物联网(IoT)技术的迅猛发展,海量传感器产生的多元时间序列数据对传统统计方法如自回归(AR)、移动平均(MA)等模型提出严峻挑战。尽管基于Transformer的模型(如Informer、ETSformer)通过自注意力机制提升了长程依赖建模能力,但其在时序连续性表达、二次方计算复杂度等方面存在固有缺陷。与此同时,传统循环神经网络(RNN)及其变体LSTM、GRU虽具备序列建模优势,却受限于标量记忆单元和递归计算模式,难以有效捕捉超长跨度依赖。这种"长序列建模困境"严重制约了交通物流、能源管理、金融预测等关键领域的决策精度。
针对这一科学难题,同济大学计算机科学与技术学院的Jihua Jiang等研究人员在《Knowledge-Based Systems》发表研究成果,提出名为mLANet的创新框架。该工作通过矩阵记忆单元增强的mLSTM模块与注意力增强卷积上下文模块(AECCM)的协同设计,结合独创的1D-to-2D数据转换策略,在保持时序因果性的同时显著提升了长程依赖捕捉效率。实验表明,该模型在ETTh1等7个基准数据集上均达到最先进(SOTA)性能。
关键技术方法包括:1)构建多层mLSTM网络,采用矩阵记忆单元扩展信息存储容量;2)设计AECCM模块,通过卷积与注意力机制融合实现局部-全局特征联合提取;3)创新性将输入数据从(B, N, L)张量转换为(B, C, N, L//C)形式,实现多时间窗口并行处理;4)使用ETT、Electricity等7个公开多元数据集进行验证。
网络架构设计
如图1所示,mLANet以PRformer为基础框架改进而成。其核心创新在于mLSTM模块通过矩阵记忆单元实现跨层信息传递,第二层mLSTM可对首层输出进行优化处理,有效缓解传统LSTM的梯度消失问题。Pyramidal RNN Embedding模块继承自PRformer,负责多尺度时序特征提取。
AECCM模块创新
该模块通过卷积核在转换后的2D数据上滑动,配合注意力权重动态调整特征重要性。实验显示,这种设计使模型在Electricity数据集上的预测误差降低23.7%,且推理速度较Transformer基线提升3.2倍。特征可视化表明,AECCM能同时激活周期性局部模式与趋势性全局模式的响应区域。
并行处理策略
通过将序列长度L拆分为C个通道,每个通道处理L//C长度子序列。这种"分治策略"使Traffic数据集的最大可处理序列长度从1024扩展到8192,而内存消耗仅线性增长。消融实验证实,该策略使模型在长序列(>512步)预测任务中的训练效率提升58%。
性能验证
如表1所示,在ETTh2数据集96步预测任务中,mLANet的MAE指标较Informer降低19.2%,在Weather数据集上实现0.382的加权F1分数。值得注意的是,模型在短序列(<48步)预测中与FEDformer性能相当,但在长序列(>192步)任务中展现出显著优势,验证了其独特的长期依赖建模能力。
该研究通过系统性的架构创新,成功解决了传统RNN系列模型在长序列建模中的三大瓶颈:记忆容量限制、信息流衰减和计算效率低下。特别值得关注的是,AECCM模块开创性地将卷积操作的局部感知优势与注意力机制的动态加权特性相结合,为多元时序特征融合提供了新范式。研究团队开源的代码库已集成PyTorch Lightning框架,支持单GPU环境下处理超过10万步的超长序列,这对能源管理系统等实际应用场景具有重要实践价值。未来工作可探索该框架在非平稳时序、多模态融合等更复杂场景下的扩展应用。
生物通微信公众号
知名企业招聘