《GeoHealth》:Predicting Daily Cardiovascular Emergencies Using Weather and Air Quality Data: A 23-Year Machine-Learning Analysis in Taiwan
编辑推荐:
已知天气与空气质量的短期变异可影响心血管急症(cardiovascular emergencies, CVD emergencies),但其对人群水平逐日预测价值尚不充分明确。研究人员利用台湾2000–2022年共23年全国性数据,评估气象与空气质量条件如何塑
已知天气与空气质量的短期变异可影响心血管急症(cardiovascular emergencies, CVD emergencies),但其对人群水平逐日预测价值尚不充分明确。研究人员利用台湾2000–2022年共23年全国性数据,评估气象与空气质量条件如何塑造各地理区域每日心血管疾病(cardiovascular disease, CVD)急诊就诊量。研究人员首先对有184个环境特征的 dataset 应用无监督学习方法(包括UMAP与K?means聚类)以识别数据驱动的环境状态(environmental regimes)并考察高危CVD日的分布。随后训练8种监督学习模型预测每日CVD急诊量,并使用SHAP(Shapley Additive exPlanations)值解释关键预测因子。无监督分析揭示一致的季节与污染相关模式:高危日倾向于聚集于气温偏低且伴随空气污染升高的条件下——其温度高于冬季但污染水平显著更高,此模式于台湾北部及≥65岁人群中尤为明显。空气污染变量比单纯气象变量产生更清晰的高危簇,表明急性CVD风险的污染相关贡献更强。监督框架中,树基集成模型(Random Forest、LightGBM、XGBoost)表现最佳,R2最高达0.67,平均绝对百分比误差(Mean Absolute Percentage Error, MAPE)为7%–8%。预测性于老年人群及台湾北部最高。SHAP分析确定NOx相关指标为CVD急诊量主导预测因子。结果表明,高分辨率环境数据结合机器学习方法可有效预测CVD急症、界定高危环境状态,并支持以空气(特别是NOx)监测为核心的地区特异性早期预警系统(early?warning system)。
论文解读:《Predicting Daily Cardiovascular Emergencies Using Weather and Air Quality Data: A 23-Year Machine-Learning Analysis in Taiwan》(发表于《GeoHealth》)
一、研究背景与立题依据
心血管疾病(cardiovascular disease, CVD)为全球首要死因,东亚地区因快速城市化、人口老龄及环境压力而负担加重。CVD发病除受内在因素(遗传、高血压、糖尿病、肥胖、吸烟等)影响外,外在环境暴露——细颗粒物(particulate matter, PM2.5、PM10)、二氧化氮(nitrogen dioxide, NO2)、一氧化碳(carbon monoxide, CO)、臭氧(ozone, O3)及气温极端值——亦可通过氧化应激、全身炎症及内皮功能障碍急性诱发心血管事件。台湾气候与地理梯度大,既往研究多为单一城市或短时段,区域差异、人口异质性及全岛逐日可预测性不明。本研究整合台湾2000–2022年全民健康保险研究数据库(National Health Insurance Research Database, NHIRD)逐日CVD急诊资料与气象—空气质量监测网日值,采用机器学习量化并预测逐日CVD急诊与环境变异的关系,识别高危环境状态及关键驱动因子,为地区特异性早期预警提供依据。
二、主要技术方法概述
研究人员将台湾划分为北(TNKY:台北、新北、基隆、宜兰)、西北(THM:桃园、新竹、苗栗)、中(TCN:台中、彰化、南投)、南(YCTKP:云云林、嘉义、台南、高雄、屏东)、东(HT:花莲、台东)五区。气象变量取自中央气象署(Central Weather Administration, CWA),含地表气压(surface pressure, PS)、风速(wind speed, WS)、降水量(precipitation, PP)、相对湿度(relative humidity, RH)、体感温度(feel-like temperature, FLT)及气温(temperature, Temp);空气质量变量取自环保署监测网,含PM2.5、PM10、O3、二氧化硫(sulfur dioxide, SO2)、CO、一氧化氮(nitric oxide, NO)、NO2及氮氧化物(nitrogen oxides, NOx)。原始小时值经质控、站点平均后聚合为日区域值,并衍生日均值、极值、日较差、与前一日差值、昼夜不对称特征及除湿负荷(DeHumidify_Load),共184个环境特征。CVD急诊按ICD?9代码410–414、430–438、401–405、428、440–448界定,按区域×性别(男/女)×年龄组(30–49岁、50–64岁、≥65岁)聚合为日急诊率(CVD急诊量/当日全病因急诊总量)。无监督部分:UMAP降维可视化→K?means(k=2)按环境特征聚类→比较簇内CVD急诊率高于组内均值的"高危日"占比(χ2检验),分别用全特征、仅污染特征、仅气象特征重复。监督部分:以日CVD急诊率为因变量、184环境特征为自变量,按8︰2随机拆分训练—测试集,拟合Ridge、LASSO、支持向量回归(Support Vector Regression, SVR)、k?近邻(k?Nearest Neighbors, KNN)、多层感知机(Multilayer Perceptron, MLP)、随机森林(Random Forest, RF)、LightGBM、XGBoost共8种算法;评估指标为决定系数(coefficient of determination, R2)与平均绝对百分比误差(Mean Absolute Percentage Error, MAPE);对最优树基模型做SHAP(Shapley Additive exPlanations)值分析解释特征重要性及影响方向。
三、研究结果
3.1 Environmental Factor Analysis Across Taiwan Using Unsupervised Learning Methods(全台无监督环境因子分析)
UMAP将高维环境特征投影至二维空间,呈现明显季节分层(夏居上、冬居下),≥65岁人群高CVD急诊率在UMAP左下角形成可视簇。K?means(k=2)得Cluster 0(C0,偏低温、高污染)与Cluster 1(C1,偏暖、低污染)。C0中高危CVD日占比显著高于C1(全体:63.4% vs 50.0%,χ2=128.1;≥65岁:74.2% vs 40.9%,χ2=797.3;50–64岁:62.3% vs 41.2%,χ2=319.0;30–49岁:51.7% vs 46.7%,χ2=17.9,均p<0.01)。仅用空气污染特征聚类时C0与C1高危日比例差异(≥65岁 χ2=910.3)大于仅用气象特征(≥65岁 χ2=179.6),说明空气污染因子比气象因子更能区分CVD高危日。女性尤其是≥65岁女性环境关联略强于同龄男性(女性≥65岁 χ2=727.4 vs 男性≥65岁 χ2=581.3)。C0气温介于冬夏间但污染物(PM2.5、PM10、NOx、NO2、CO、SO2)浓度均高于冬夏两季,且≥65岁及50–64岁CVD急诊率高于单纯冬季——表明偏凉+高污染复合状态最危险,且污染贡献突出。
3.2 Regional Environmental Factor Analysis Using Unsupervised Learning Methods(分区域无监督环境因子分析)
五区UMAP均显示季节组织性,北区(TNKY)≥65岁CVD风险与环境状态关联最清晰。TNKY之C0高危日占比:全体57.2% vs 50.4%(χ2=27.0),≥65岁62.8% vs 42.1%(χ2=248.9),50–64岁51.6% vs 40.6%(χ2=72.3),30–49岁48.3% vs 44.3%(χ2=9.7)。其他区域(THM、YCTKP、TCN、HT)仅部分年龄组合显著,东部(HT)因人口少未达显著。北区预测关联最强,与其人口密度大、监测完备、交通源污染主导有关。
3.3 Prediction Performance Across Supervised Learning Models(监督模型预测性能)
树基集成模型(RF、LightGBM、XGBoost)R2最高达0.65–0.67、MAPE 7%–11%;全国≥65岁组R2≈0.67,北区≥65岁组R2≈0.60–0.63。非树基模型中Ridge最佳(北区≥65岁 R2≈0.55),余者R2<0.60、MAPE偏高(8%–15%)。预测力排序:≥65岁>50–64岁>30–49岁;同年龄组女性略高于男性;北区>其他区。树基模型兼顾非线性交互与稳健性,被选作SHAP解释对象。
3.4 Interpretability via SHAP(SHAP可解释性分析)
三种树基模型SHAP值一致显示NOx_avg(日均氮氧化物浓度)具最强正向预测贡献,其次为风速(WS_avg)、NO_avg、CO_diff(CO日均值差)、SO2_min、O3_min等——反映气体污染物与大气扩散条件共同塑造短时CVD风险。NOx作为城市交通源排放示踪物,空间异质性强、与急性血管内皮损伤关联密切,是台湾都会区CVD急诊的关键环境驱动因子。
四、讨论与结论翻译(Conclusions节录翻译)
研究人员利用台湾23年全国数据证明,高维气象—空气质量特征可被组织为区别于传统季节分类的特有环境状态(environmental regimes),且该状态对应老年人CVD急诊率升高。无监督学习显示特定环境簇(Cluster 0:相对偏凉伴高污染,尤指NOx升高)持续含更高比例高危CVD日,≥65岁人群最显著,女性稍强于男性;空气污染变量单独聚类时高低危日差异大于仅气象变量,表明污染变异在急性CVD触发中作用更突出。区域分析显示此模式于台湾北部(TNKY)最强。监督学习证实树基集成模型(Random Forest、LightGBM、XGBoost)可预测每日CVD急诊量(全国老年组R2≈0.65–0.67,MAPE≈7%–8%;北区老年组R2≈0.60–0.63),SHAP分析一致指出NOx相关指标及气态污染物、风场变量为核心预测因子——凸显排放强度与大气扩散的共同作用。综合而言,环境监测整合机器学习可识别脆弱人群、高危环境状态及主导暴露驱动因子,支撑以NOx监测为重点的针对性早期预警与公共卫生干预。