"AirWare-Haikou数据集:融合多源时空与社会反馈数据的城市空气质量异常检测与可解释性追踪研究"

【字体: 时间:2025年07月25日 来源:Scientific Data 5.8

编辑推荐:

  本研究针对城市空气污染监测中异常检测模型泛化性不足、数据异构性高及结果可解释性差等问题,通过构建包含多元时间序列空气质量数据(MTSAM)、兴趣点(POI)和公众投诉语料的AirWare-Haikou数据集,开发了基于双尺度表征学习网络(DsRL-Net)的异常检测框架。研究创新性地提出多维特征嵌入插值算法(MFECVI)处理缺失数据,结合POI空间聚类和自监督数据增强技术,显著提升模型在复合异常模式识别中的准确率(平均F1达0.917)。通过投诉语料与异常事件的时空匹配,首次实现了深度学习模型的环境治理决策支持功能,为智慧城市空气质量监测提供"时间-空间-社会"三维分析范式。

  

随着城市化进程加速,空气污染已成为全球性健康威胁。传统监测方法面临两大困境:一方面,基于重构误差的异常检测模型(如USAD、TranAD)对昼夜循环和季节趋势变化不敏感;另一方面,现有数据集(如Global PM2.5 Dataset)缺乏城市尺度的多源数据融合能力,导致模型难以关联污染事件与社会反馈。这种"数据孤岛"现象严重制约了环境治理的精准施策。

北京工业大学的研究团队在《Scientific Data》发表的研究,通过构建AirWare-Haikou数据集破解了这一难题。该研究整合海口市95个监测站长达22个月的时序数据(含PM2.5、PM10等11项指标),创新性地引入公众投诉语料(经UIE模型提取)和92,108个POI点数据,形成首个具备时空社会多维关联能力的空气质量分析平台。关键技术包括:1)MFECVI算法解决高达80%缺失率的数据修复;2)基于Haversine公式的POI空间聚类划分4类功能区域;3)双尺度注意力机制(DsRL-Net)实现复合异常检测,相比传统模型准确率提升15.7%。

数据构建方法
研究团队开发的多维特征嵌入连续值插值法(MFECVI),通过Transformer编码器学习上下文依赖关系,在80%高缺失率下仍保持RMSE≤0.35的插值精度。针对异常样本稀疏问题,采用自监督对比学习生成合成数据,使4个子集的异常比例从平均6.59%提升至21.81%。

POI空间聚类
基于百度API获取的9万余个POI点,通过层次聚类算法将监测站划分为中心商业区(子集1)、文教区(子集2)等4类功能区域。算法1中设计的归一化欧氏距离公式有效捕捉空间关联:
dist(pa,qb)=√Σ[(xk(pa)-xk(qb))/sk]2

异常检测性能
DsRL-Net网络通过时间块尺度(Time-scale)和实例尺度(Instance-scale)双注意力机制,在测试集上实现平均95.8%的准确率。如图14所示,其AUC值(0.943)显著优于Anomaly Transformer等基线模型,尤其对混合功能区(子集4)的突变型异常识别F1达0.907。

投诉驱动的可解释性
研究团队从海南省政务平台提取1,176条投诉记录,经UIE模型结构化后生成包含污染源类型(32%道路扬尘)、地理位置等字段的语料库。如图17所示,通过将CEG41930016监测站的PM2.5异常峰值(20:00超标)与"齿轮油挥发"投诉事件时空匹配,首次实现从模型输出到治理措施的闭环验证。

这项研究的突破性在于:1)建立首个支持异常检测后验解释的多源数据集;2)提出的DsRL-Net模型在保持高精度(Precision 0.953)同时,通过KL散度量化表征差异(式29),解决复合模式识别难题;3)投诉语料与POI的融合分析,为"15分钟生活圈"环境规划提供数据支撑。正如讨论部分强调,该框架可扩展至噪声、水质等城市环境监测场景,其"数据-模型-决策"三位一体范式将推动环境治理从被动响应转向主动预警。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号