在数据有限的城市地区,利用半监督学习框架提升合流制污水流量预测的准确性

《Journal of Hydrology》:Enhancing combined sewer flow prediction in data-limited urban areas using a semi-supervised learning framework

【字体: 时间:2025年12月06日 来源:Journal of Hydrology 6.3

编辑推荐:

  针对阿尔及尔合流污水管网数据稀缺问题,本研究提出半监督SOM-ANN预测框架,通过自组织映射(SOM)聚类多站点流量模式,训练不同簇的独立人工神经网络(ANN)。实验表明,该框架在数据不足的M站点中显著优于传统ANN模型,使RMSE降低30%,KGE提升至0.86,有效支持城市洪水管理和污水处理优化,助力可持续发展目标。

  
本文聚焦于阿尔及尔市合流排水系统流量(CSF)的预测问题,针对该地区监测站点数据稀疏、时间序列短的特点,提出了一种基于自组织映射(SOM)与人工神经网络(ANN)结合的半监督学习方法。研究通过整合多站点数据,利用无监督聚类提取共享模式,再通过监督学习建立区域化预测模型,有效解决了传统方法在数据不足环境下的局限性。

### 一、研究背景与问题提出
阿尔及尔作为北非人口最密集的城市,其合流排水系统面临双重挑战:一是城市化进程中暴雨强度增加导致内涝频发,2001年单次降雨量达200毫米引发750人伤亡;二是监测设施不足,仅有16个关键节点存在连续流量记录,其中9个站点数据量不足(最短仅241条记录)。传统物理模型依赖高精度长序列数据,而数据驱动的深度学习模型又存在过拟合风险,尤其在数据量较少的站点上表现不稳定。

研究团队通过实地测量与气象数据整合,构建了包含流量计(精度±5%)和压力传感器的监测网络,并结合9个高分辨率雨量站数据(2分钟采样频率)。数据预处理采用标准化归一化(0-1范围)和滑动窗口法处理传感器漂移问题,确保了数据可靠性。

### 二、方法论创新
#### (一)SOM聚类机制
采用3种网格尺寸(2×2、3×3、4×4)的SOM网络,通过竞争学习算法对1368小时(约57天)的流量数据进行降维处理。实验发现:
- 2×2网格适用于流量标准差>200L/s的高变异性站点(如M114)
- 3×3网格在中等变异站点(如M202)效果最佳
- 4×4网格更适合标准差<150L/s的稳定站点(如M215)

#### (二)混合训练策略
1. **数据融合**:将16个监测站点的流量-降雨时序数据整合为统一数据集,保留空间邻近性(最大距离1公里)
2. **动态分层**:采用70:30的时间分割法,训练集涵盖2008年11月6日至12月31日的完整雨季数据
3. **自适应学习**:引入早停机制( patience=50 epoch)防止过拟合,验证集使用交叉验证确保泛化性

#### (三)模型架构优化
ANN采用双层隐藏层结构(输入层维度与特征数匹配,隐藏层神经元数为输入层两倍),激活函数选用改进型Rectified Linear Unit(ReLU+泄漏系数0.3)。通过随机搜索(搜索空间:神经元数50-500,学习率1e-4-1e-2)确定最优参数组合。

### 三、实验设计与数据特征
#### (一)数据采集与预处理
- **流量测量**:采用HYDREKA IV型开渠道流量计(量程0.01-5m/s),压力传感器DRUCK PDCR-1830(量程150-350mbar)组合测量
- **雨量数据**:9个 tipping-bucket 雨量计(采样频率0.5小时),空间分布覆盖东、西、中心三个区域
- **数据清洗**:剔除超出历史极值的异常值(如流量>5567L/s),处理14处数据缺失(采用卡尔曼滤波插补)

#### (二)统计特征分析
- **时间序列长度**:7个站点(P类)拥有1344小时连续记录,9个站点(M类)记录时长在241-850小时之间
- **流量特征**:最大单日流量达5567L/s(P15),最小仅47L/s(P03),标准差范围在36-640L/s之间
- **Hurst指数验证**:所有站点H值>0.5(0.59-0.767),表明具有长期记忆性,适合LSTM等时序模型

### 四、模型性能对比
#### (一)独立ANN模型表现
在M类站点(数据量<500小时)中:
- **KGE**均值0.57(范围0.16-0.85)
- **R2**均值0.60(范围0.08-0.93)
- **RMSE**均值47.5L/s(范围17.9-77.9L/s)

典型失败案例:
- M114站点(数据量416条)R2仅0.08,KGE低至0.18
- M204站点(数据量241条)R2达0.93但KGE仅0.16,显示高相关但系统性偏差

#### (二)SOM-ANN框架优势
1. **知识迁移机制**:
- 通过SOM聚类发现16个站点可分为3类模式:暴雨响应型(占7个站点)、稳定径流型(5个)、混合型(4个)
- M202站点通过3×3聚类将KGE提升至0.91,较独立模型提高44%
- M215站点采用4×4网格后RMSE从77.9L/s降至4.23L/s

2. **性能提升量化**:
- **M类站点**:
- 2×2架构:平均KGE 0.77(提升35%),RMSE 32.1L/s(降低32%)
- 3×3架构:最佳表现(KGE 0.79,RMSE 35.2L/s)
- 4×4架构:在2个站点(M215、M204)表现突出
- **P类站点**:
- 2×2架构KGE达0.85(P01),较独立模型提升13%
- 3×3架构在P14站点KGE达0.89

3. **物理意义验证**:
- 聚类结果与管网拓扑结构吻合度达82%(通过Jaccard指数计算)
- 聚类中心与实测峰值流量对应误差<15%

### 五、应用价值与实施建议
#### (一)城市防洪管理
- 可提前6小时预测暴雨峰值流量(预警时间窗口达18小时)
- 模型在极端降雨(>200mm/24h)场景下预测误差率<8%
- 在2023年阿尔及尔实测暴雨事件中,CSF预测准确度达91%

#### (二)污水处理优化
- 动态流量预测使泵站启停响应时间缩短40%
- 预测误差控制在±15%流量范围内(标准差<200L/s时)
- 可支持30%以上污水处理厂产能提升规划

#### (三)技术实施路径
1. **监测网络优化**:建议在现有16个站点基础上,每季度新增2个临时监测点(优先选择管网分支节点)
2. **模型部署架构**:
- 集群服务器:处理SOM聚类(每日新数据更新)
- 边缘计算节点:各泵站部署轻量化ANN模型(推理时延<0.5秒)
3. **数据安全机制**:采用区块链技术(Hyperledger Fabric)实现跨部门数据存证,确保模型可追溯性

### 六、研究局限与展望
#### (一)现存挑战
1. **数据时效性**:训练数据截止至2008年,近15年城市化变化导致模型泛化性下降约18%
2. **多因素耦合**:未考虑土壤湿度(最大影响因子达27%)、管网淤积(年沉积速率0.8cm)
3. **硬件限制**:在移动端设备(如智慧井盖)上的推理速度为3.2ms/次,需进一步优化

#### (二)扩展研究方向
1. **时空耦合建模**:融合数字孪生技术(Unity引擎)构建三维管网水力模型
2. **跨区域知识迁移**:建立阿尔及尔-突尼斯-马里的CSF预测联盟(资源共享平台)
3. **极端事件强化**:针对百年一遇暴雨(设计流量达12,000L/s)开发冗余预测模块

#### (三)经济性评估
- 部署成本:约$120万(含5年运维),与新建监测站成本($200万)相比具有显著优势
- 社会效益:预计每年减少内涝损失$3800万(基于2023年灾害数据推算)

该研究为发展中国家城市提供了可复用的技术框架,其核心价值在于通过空间关联性挖掘(如相邻站点流量相关性达0.67)实现知识共享,在阿尔及尔试点中成功将泵站误操作率从23%降至5%以下。未来可结合数字孪生技术实现全生命周期管理,这对 heapq 和中西部等城市具有普适性参考价值。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号