综述:利用地理空间人工智能(GeoAI)进行环境流行病学的叙事综述

《Current Environmental Health Reports》:Harnessing Geospatial Artificial Intelligence (GeoAI) for Environmental Epidemiology: A Narrative Review

【字体: 时间:2025年09月27日 来源:Current Environmental Health Reports 9.1

编辑推荐:

  本综述系统梳理了地理空间人工智能(GeoAI)在环境流行病学中的应用进展,重点介绍了GeoAI如何结合卫星遥感、街景图像和移动设备大数据,实现对空气污染(PM2.5)、饮用水污染物(PFAS)和绿地暴露等环境因素的高精度评估。文章通过典型案例(如神经网络预测PM2.5、XGBoost预测PFAS污染风险)展示了GeoAI在提升暴露评估时空分辨率、分析复杂暴露混合物(exposome)方面的潜力,同时深入探讨了空间依赖性处理、模型可解释性(如SHAP分析)及伦理挑战(如数据代表性和隐私保护),为环境健康研究提供了方法论创新和实践指南。

  
引言
地理空间数据和地理信息系统(GIS)已成为环境健康研究的核心工具,支持空间数据的存储、处理、可视化及统计分析。近年来,随着人工智能(AI)和机器学习技术的快速发展,地理空间人工智能(GeoAI)应运而生,通过融合空间分析与AI算法,实现了对大规模环境暴露数据的高效处理与预测。本文综述了GeoAI在环境流行病学中的最新应用,重点探讨其在暴露评估、健康行为监测及因果推断中的方法论创新与挑战。
地理空间数据的获取与预处理
GeoAI模型的性能高度依赖输入数据质量。主要数据源包括行政数据库(如人口普查、污染监测数据)、卫星遥感影像(如Landsat、Sentinel系列)和街景图像(如Google Street View)。这些数据具有覆盖广、时空分辨率高(可达30米至1公里)和长期连续(多超过20年)的优势,但需针对云层遮挡、地理边界不一致等问题进行预处理。例如,卫星数据常需去噪算法校正大气干扰,而街景图像需通过卷积神经网络(CNN)提取绿地、建筑密度等特征。数据代表性亦需谨慎评估——政府数据覆盖全面但可能存在报告误差,商业数据精度高但成本昂贵,志愿者数据粒度细却缺乏普适性。
GeoAI与大数据的融合:环境暴露评估的创新
  1. 1.
    环境空气污染的高精度预测
    GeoAI模型通过整合气溶胶光学厚度(AOD)、气象变量、土地利用等多源数据,显著提升了PM2.5预测精度。例如,Di等(2016)开发的神经网络模型结合化学传输模型与空间卷积层,捕捉了污染物的非线性扩散特征(交叉验证R2达0.73–0.89)。随机森林模型则通过引入不透水表面比例等特征,简化了预测流程。集成学习框架(如Di等2019年研究)进一步融合神经网络、随机森林和梯度提升算法,利用逾100个变量生成全美高时空分辨率PM2.5图谱。此类模型已成功应用于流行病学研究,揭示了PM2.5与心血管疾病、痴呆的关联。
  2. 2.
    饮用水污染物与风险社区识别
    针对新兴污染物如全氟烷基物质(PFAS),GeoAI突破了传统监测成本高、覆盖有限的瓶颈。Tokranov等(2024)采用XGBoost模型,结合历史水质数据与水文地质特征,预测了美国地下水PFAS污染风险(AUC=0.83)。在铅污染研究中,机器学习模型通过空间交叉验证降低了采样偏差,精准识别了学校与家庭供水系统中的高风险点。美国环保署(EPA)开发的随机森林模型更通过普查区块与服务区匹配,实现了公共供水系统服务范围的自动化划分(AUC=0.9997)。
  3. 3.
    遥感与街景图像解析建成环境与绿地
    卫星遥感可宏观评估绿地覆盖率与健康效应(如护士健康研究中绿地与认知功能的正相关),但无法反映个体实际感知。街景图像与深度学习结合后,可量化眼-level绿地(如树木、草坪)与健康结局的关联。Yi等研究显示,街景树木与儿童肥胖风险降低、老年人帕金森病住院率下降显著相关;卷积神经网络从数亿张图像中提取的绿地特征,甚至比卫星数据更能预测抑郁发病率。这类细粒度暴露指标为揭示特定环境要素的健康效应提供了新证据。
被动式健康行为数据的新来源
智能手机与可穿戴设备(如Fitbit、Apple Watch)的普及,推动了健康行为的被动监测。GPS轨迹与加速度计数据可构建个体“活动空间”,替代传统研究中以住址为中心的暴露评估。例如,Montanari等(2025)通过传感器数据发现社区社会经济状况是老年人睡眠质量的关键预测因子。社交媒体数据(如X平台的地理标记推文)则通过情感分析实时反映公众对环境污染事件的反应,辅助灾害应急响应。然而,这些数据需警惕代表性偏差与隐私泄露风险。
GeoAI在数据分析与解释中的进阶应用
  1. 1.
    空间相关性处理
    地理数据存在空间自相关性,传统AI模型易忽略此特性。空间图神经网络(GNN)和变换器模型通过嵌入经纬度坐标或专家知识(如交通网络拓扑),显式建模空间依赖关系,提升了交通流量、污染扩散等预测任务的准确性。
  2. 2.
    复杂暴露混合物与暴露组分析
    面对多环境暴露的共线性问题,GeoAI辅助的混合物模型(如贝叶斯核机器回归(BKMR)、加权分位数和回归(WQS))可解析多污染物联合效应。例如,提升回归树与WQS结合能识别化学物质对自闭症的协同作用,而惩罚回归算法则允许混合物组分效应方向异质性的检验。
挑战与局限性
  • 时空异质性:GeoAI模型在训练数据覆盖不足的区域(如农村或少数族裔社区)预测性能下降,且难以泛化至不同时期或地理背景。
  • 伦理与公平性:算法可能加剧健康不平等,如医院资源分配模型曾因低估低收入群体需求而歧视性排班。需通过跨人群校准、公平性指标(如预测准确率的组间差异)评估模型偏差。
  • 测量误差与隐私保护:地理掩码技术可降低个体地址泄露风险,但暴露评估仍受GPS精度、活动空间假设偏差影响。Conformal prediction等机器学习方法可量化预测不确定性,辅助误差控制。
结论
GeoAI通过融合多源地理数据与AI算法,正重塑环境流行病学的暴露评估范式。其在提升PM2.5、水质、绿地等暴露指标精度、解析暴露组复杂效应、整合被动行为数据等方面展现出巨大潜力。未来研究需持续关注数据质量、算法可解释性及伦理框架,以确保GeoAI在环境健康研究中科学、公平地应用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号