日本PM2.5 污染趋势的模式发现数据集构建与空间热点分析

【字体: 时间:2025年06月17日 来源:Scientific Data 5.8

编辑推荐:

  本研究针对日本PM2.5 长期暴露区域识别不足的问题,开发了包含1900个传感器、历时5年的高时空分辨率数据集。通过ER-Schema数据架构与频繁模式挖掘(Frequent Pattern Mining)技术,首次系统揭示了日本PM2.5 污染的时空分布规律,发现福岛等地区存在持续性高暴露风险。该成果为靶向治理策略制定提供了数据支撑,发表于《Scientific Data》。

  

空气污染已成为日本重要的公共卫生威胁,尽管整体空气质量有所改善,细颗粒物PM2.5
(空气动力学直径≤2.5微米的颗粒物)仍是导致早逝的主要风险因素。现有研究多聚焦短期污染预测,缺乏对长期暴露区域的系统识别,这主要受限于高质量时空数据的匮乏。日本会津大学的研究团队通过整合全国1900个监测站点、横跨2018-2023年的每小时PM2.5
数据,构建了首个专注于PM2.5
的开放数据集,并应用模式挖掘技术揭示了污染热点分布规律,相关成果发表于《Scientific Data》。

研究团队采用三项关键技术:1)从Soramame网站获取原始监测数据,通过ER-Schema模型构建结构化数据库;2)开发知识发现(KDD)流程处理缺失值与异常数据,设定35μg/m3为污染阈值进行二值化转换;3)应用Apriori、ECLAT和FP-growth等频繁模式挖掘算法,以不同最小支持度(minSup)识别空间关联模式。

数据生成与处理

通过自动化采集日本全国监测网络数据,构建包含46,005时间点、1,832个传感器的原始数据集。采用实体-关系模型(ER-Schema)将数据组织为传感器表和观测表两大核心结构,确保时空数据的一致性。预处理阶段创新性地采用零值替换缺失数据,并剔除超出0-250μg/m3范围的异常值。

模式挖掘与验证

在minSup=55%条件下,Apriori算法识别出支持度达60%的传感器组合模式,如坐标点(130.6384926, 32.5010333)与(140.5781487, 39.2300292)的共现。性能测试显示Apriori在运行效率(平均降低23%耗时)和内存占用上优于FP-growth与ECLAT算法。

空间可视化分析

通过地理映射发现四大典型区域:Area-1(福岛周边)呈现密集的高频污染模式,居民暴露风险显著;Area-2(九州地区)传感器群显示强空间关联性;Area-3(北海道)污染事件稀疏;Area-4(冲绳)基本未检测到超标记录。其中红色标记的"Point(130.6384926, 32.5010333)"传感器在80%高频模式中出现,提示该区域存在持续性污染源。

该研究首次通过模式挖掘技术量化了日本PM2.5
的长期暴露格局,证实传统监测方法可能低估区域累积风险。公开的5年高频数据集为环境政策制定提供了三方面价值:1)识别优先治理区域;2)验证卫星反演数据的可靠性;3)支持机器学习模型训练。未来可扩展至多污染物协同分析,但需注意35μg/m3阈值可能掩盖极端污染事件的研究局限。研究成果为东亚地区空气质量管理提供了可复用的方法论框架。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号