
-
生物通官微
陪你抓住生命科技
跳动的脉搏
利用时空冗余性实现给水管网传感器数据插补的低秩自回归张量完成方法(LATC)
【字体: 大 中 小 】 时间:2025年09月22日 来源:Water Resources Research 5
编辑推荐:
本文系统阐述了给水管网(WDN)中多传感器时空数据缺失的严峻挑战,创新性地提出了低秩自回归张量完成(LATC)模型。该方法通过张量化处理将数据组织为传感器×时段×天的三阶张量,巧妙捕捉了传感器间相似性(inter-sensor similarity)、日内规律性(intra-day regularity)和日间重现性(daily recurrence)等全局冗余特征,并引入截断核范数(TNN)和自回归正则化技术,有效解决了随机缺失(RM)、长程缺失(LM)和块缺失(BM)等复杂缺失模式下的数据插补难题。实验证明LATC在四种真实和模拟WDN数据集上显著优于现有基准方法,为智慧水务网络(SWNs)的数据质量提升提供了可靠解决方案。
随着给水管网(WDN)数字化进程的加速,多传感器时间序列数据的高时空分辨率采集已成为智慧水务网络(SWNs)的重要基础。然而,传感器故障、传输中断等多种因素导致的数据缺失问题严重制约了数据驱动应用的有效性。缺失数据会显著影响水力模型校准、异常检测、需求预测等关键应用的准确性,因此开发可靠的时空数据插补方法至关重要。
现有研究存在三个主要局限性:首先未能深入分析真实WDN数据中的复杂缺失模式;其次多数方法针对单个传感器或特定应用,缺乏通用性;第三忽视了时空维度上丰富的相关性和依赖性。本研究旨在通过系统分析WDN数据的时空冗余特性,开发一种通用的低秩自回归张量完成方法,以解决这些挑战。
研究采用张量代数符号体系,将矩阵表示为粗体大写字母(如X∈RM×N),向量为粗体小写字母,标量为小写字母。对于三阶张量X∈RM×I×J,其(m,i,j)元素记为xm,i,j,Frobenius范数定义为‖X‖F=√(∑m,i,jxm,i,j2)。张量的k-模展开(k=1,2,3)表示为X(k),分别对应传感器模式、时段模式和天数模式。
真实WDN中的时空时间序列数据可组织为矩阵D∈RM×(IJ),其中M为传感器数量,I为每天时间点数,J为总天数。部分观测矩阵表示为PΩ(D),通过引入"天数"维度将观测矩阵转换为三阶张量D∈RM×I×J,从而更好地捕捉全局信息。
基于缺失机制特征,WDN时空数据的缺失模式分为三类:随机缺失(RM)、长程缺失(LM)和块缺失(BM)。RM由电力波动和数据包丢失引起;LM由传感器故障和维护导致;BM则由SCADA系统软硬件故障造成。这是首次在WDN数据分析中明确定义LM和BM模式,反映了时空维度上的结构性损坏。
通过Z-city流量数据集的可视化分析,揭示了WDN数据固有的多模式冗余特性:传感器间相似性显示不同位置传感器因管网互联拓扑而呈现相似变化模式;日内规律性表现为特定时段的一致性变化,符合居民用水模式;日间重现性则体现为每天重复出现的"M"形双峰模式。这些全局冗余为低秩张量完成提供了理论基础。
多模式数据冗余代数表现为"低秩性",通过对三个张量模式展开矩阵进行奇异值分解发现,每个展开矩阵的奇异值仅由少数大奇异值主导,表明较少的基础模式即可描述大部分信息。低秩先验约束能够利用观测数据和其它模式的潜在相关性来可靠估计缺失值。
时空WDN数据具有全局冗余或低秩特性,因此低秩张量完成(LRTC)模型在WDN数据插补中具有巨大潜力。研究采用截断核范数(TNN)最小化作为秩函数的非凸近似,比核范数(NN)能产生更优越的估计精度。TNN定义为‖X‖r,*=∑i=r+1min{m,n}σi(X),专注于较小奇异值的最小化,能更精确反映实际秩结构并保留主成分。
对于三阶张量,TNN定义为所有模式展开矩阵的TNN加权和:‖X‖r,=∑k=13αk‖X(k)‖r,,其中αk为非负权重参数。基于此,WDN数据插补问题被表述为低秩张量完成问题。
低秩基于模型的主要局限性是无法捕捉非平稳WDN时间序列中的局部时间模式。为此,研究引入了自回归正则化项‖Y‖C,H=∑m,t(ym,t-∑icm,iym,t-hi)2,其中C∈RM×d为可学习系数矩阵,H={h1,?,hd}为时间滞后集合。该正则化量化了拟合每个时间序列时产生的自回归误差累积和,能有效增强时间连续性。
基于上述理论基础,研究提出了低秩自回归张量完成(LATC)方法,将张量的TNN最小化与展开时间序列矩阵的时间变化最小化相结合。优化问题表述为同时最小化截断核范数和自回归正则化项,约束条件包括张量化关系和观测一致性。
采用交替最小化技术将问题分解为两个子问题,并通过交替方向乘子法(ADMM)进行求解。算法通过迭代更新张量变量、矩阵变量和自回归系数,逐步收敛到最优解。关键参数包括权衡系数c=λ/ρ、截断参数r和学习率ρ,这些参数通过网格搜索优化确定。
研究使用两个真实世界的大规模数据集(Z-city Flow和Z-city Pres)和两个模拟数据集(Sim-net Flow和Sim-net Pres)进行评估。Z-city Flow包含63个传感器一年的流量数据,Z-city Pres包含52个传感器半年的压力数据,两个模拟数据集分别包含120和52个传感器两个月的模拟数据。所有数据均以15分钟为间隔采集,具有不同的缺失率。
为测试LATC的插补效果,研究设计了基于三种缺失模式的多类缺失场景:包括不同比例的RM、LM和BM单独场景,以及混合缺失(MM)场景。MM场景由不同比例的三种缺失模式组合而成,更符合真实世界情况。
选择了五种基线模型进行比较:HaLRTC(高精度低秩张量完成)、TRMF(时间正则化矩阵分解)、LAMC-TNN(低秩自回归矩阵完成)、KNN(K近邻)和Missforest(随机森林缺失值插补)。评估指标采用对称平均绝对百分比误差(SMAPE)和均方根误差(RMSE)。
实验结果表明,LATC在块缺失和混合缺失场景下 consistently优于基线模型,在随机缺失和长程缺失场景中也表现最佳或接近最佳。在真实世界数据集上,缺失率和缺失模式对所有模型都有显著影响,随着缺失率增加,SMAPE/RMSE值相应上升,结构性缺失模式比简单随机缺失更具挑战性。
可视化分析显示,即使在严重、结构性和混合缺失场景下,LATC也能成功重建真实的长期趋势和详细信息。与HaLRTC相比,LATC对缺失率增加表现出更强的鲁棒性;与矩阵基础模型(TRMF和LAMC)相比,LATC的优势表明张量结构更能表征多模式相关性;而KNN和Missforest由于缺乏可用邻居条目或足够参考信息,在块缺失插补任务中失败。
通过热图分析发现,LATC在真实数据集上需要大系数c和大截断r才能达到最佳性能,而在模拟数据集上则需要小系数c和小截断r。这验证了最小化时间变化对真实WDN流量数据插补任务的重要性,表明自回归正则化能有效表征实际传感器时间序列中的底层时变系统行为和强局部模式。
通过设计LATC的两个变体(LATC-NN和LRTC-TNN)进行消融研究,结果表明LATC在所有缺失场景和数据集上 consistently优于两个对比模型。与LRTC-NN相比,LATC在Z-city Flow数据集上SMAPE改善10.8%-19.0%,在Z-city Pres数据集上RMSE改善4.0%-14.2%。案例分析显示,当传感器丢失整天的观测数据时,LATC模型能更准确地重建长程缺失数据,TNN最小化在捕捉低秩结构和建模全局冗余方面显著优于NN最小化。
与LRTC-TNN相比,LATC在Z-city Flow数据集上SMAPE最高提升10.6%,在Z-city Pres数据集上RMSE提升8.0%。这表明自回归正则化是真实WDN数据插补任务的高效工具,能有效编码真实WDN时间序列中的强局部相关性。
LATC为各种WDN数据集中的缺失值插补提供了一种灵活通用的方法,不仅在常见缺失场景中超越现有先进方法,在高缺失率和混合缺失模式的数据集上也表现优异。相比先前研究,LATC在方法和实际适用性方面都取得了显著进步。
LATC的成功主要归因于两个因素:表征时空WDN数据固有全局冗余的能力,以及整合自回归正则化以有效处理时间依赖性的能力。TNN组件作为"特征选择器",保留对数据生成贡献最大的显著特征,同时最小化噪声或不重要模式的影响。自回归过程在时间维度上施加连续性约束,使插补值反映真实时间动态,减少了不连续"跳跃"带来的解释困难。
研究的局限性包括未充分考虑WDN状态与LATC的相关性,以及缺乏适当的水质数据集进行实验。未来研究方向包括在更密集传感器部署的WDN中测试LATC的准确性和效率,以及扩展张量完成技术到去噪和异常检测领域。
时空WDN数据为推进智慧水务网络提供了前所未有的机遇,而缺失值限制了这些网络的全部潜力。本研究从高维数据分析的角度,将缺失值插补任务视为三阶张量(传感器×时段×天)的低秩完成问题,通过利用时空WDN数据固有的冗余性和时间依赖性,开发了通用的LATC方法来实现准确高效的数据插补。大规模WDN数据集上的大量实验证明,LATC显著优于现有先进基线模型。
本研究是首个为具有复杂缺失模式的真实WDN时空数据插补提供全面理论和实验见解的工作。未来研究方向包括在传感器部署更密集的WDN中验证LATC的准确性和效率,以及扩展张量完成技术到去噪和异常检测应用领域。通过解决这些挑战,LATC有潜力提升智慧水务网络的数据质量和可靠性,支持各种实时应用,改善整体给水分配管理。
计算效率比较表明,HaLRTC在所有场景中运行时间最短,但这是以插补精度为代价的简单性的结果。相比之下,LATC在效率和准确性之间实现了更好的平衡,在运行时间适度增加的情况下提供了持续优越的插补性能。
与TRMF和Missforest相比,LATC平均减少运行时间70%-80%,同时提供相当或更好的准确性。LATC也优于LAMC,提供相似或更好的效率,并在块缺失和混合缺失场景下具有明显更高的准确性。KNN在简单随机缺失和长程缺失场景下的小数据集上表现良好,但可扩展性差,在大型数据集的块缺失和混合缺失场景中完全失败。相比之下,LATC在所有数据集和缺失模式下保持可靠性能,凸显了其在智慧水务网络实时应用中的鲁棒性。
总体而言,LATC在准确性、计算效率和鲁棒性之间提供了优越的平衡,即使在最具挑战性的块缺失和混合缺失场景下也是如此,使其非常适用于实际的大规模WDN数据插补任务。
生物通微信公众号
知名企业招聘