《International Journal of Cancer》:High-Throughput Geocoding to Assess Short-Term Air Pollution in Correlation With Mortality in a French Cancer Patient Cohort
编辑推荐:
空气污染显著影响人类健康和死亡率,包括癌症相关死亡。然而,研究方法与空间精度在不同研究中常存在差异。在癌症患者等脆弱人群中实施地理信息技术(geomatic tools)来研究死亡率,可能有助于加深对环境影响因素的理解。本研究旨在评估法国癌症患者队列中短期空气
空气污染显著影响人类健康和死亡率,包括癌症相关死亡。然而,研究方法与空间精度在不同研究中常存在差异。在癌症患者等脆弱人群中实施地理信息技术(geomatic tools)来研究死亡率,可能有助于加深对环境影响因素的理解。本研究旨在评估法国癌症患者队列中短期空气污染暴露与死亡率之间的关系。研究人员采用地理信息框架,在精细空间粒度下对44,268名连续癌症患者(2017–2020年)的回顾性队列进行了分析。空气质量数据(PM2.5、PM10、NO2、O3、温度)被关联至每位患者。主成分分析(PCA)识别出了暴露组,并应用随机森林算法预测死亡率。总体而言,9%的患者在随访期间死亡。研究人员识别出四个具有不同空气质量特征的患者簇。细颗粒物(PM2.5)、可吸入颗粒物(PM10)和二氧化氮(NO2)水平最高的簇显示死亡率升高(12%–13%),而污染水平最低的簇显示死亡率降低(8%)(卡方检验,p?0.001)。预测算法的召回率达到80%。死亡的主要预测因子包括之前31天内的较高温度和升高的PM2.5,以及年龄较大、男性和胸部癌症。在社区内尺度评估的短期劣质空气质量暴露与癌症患者的超额死亡率相关。预测算法识别出的31天滞后时间窗口为针对性预防和及时公共卫生干预提供了机会。
**研究背景与问题**
空气污染对人类健康及死亡率(包括癌症相关死亡)的显著影响已获广泛认可,但研究方法的空间精度在不同研究中差异较大。现有文献多聚焦于长期暴露效应,而短期空气质量波动对癌症患者总死亡率的影响尚不明确,且可能被低估。癌症患者因其健康受损状态而成为独特脆弱人群,亟需精细化方法量化空气污染与健康结局的关系。为此,研究人员利用地理信息技术(geomatics)和机器学习模型,在法国癌症患者队列中开展回顾性分析,旨在评估短期(31天滞后窗内)空气污染暴露与死亡率之间的关联。该论文发表于《International Journal of Cancer》。
**主要技术方法**
样本队列来源于法国居里研究所(Institut Curie),纳入2017–2019年间44,268名连续癌症患者,仅限居住于巴黎大区(空气质量高分辨率数据可用区域)。关键技术包括:(1)地理编码(Geocoding):使用Addok应用程序接口(API)将患者地址转换为WGS84坐标,并与IRIS(Ilots Regroupés pour l'Information Statistique)统计单元进行空间连接;(2)环境数据获取:从AIRPARIF(巴黎地区大气监测官方组织)获取每日PM
2.5、PM
10、NO
2和O
3浓度数据,空间分辨率50?×?50?m;温度数据来自哥白尼ERA5-Land数据集,空间分辨率约9?×?9?km;(3)暴露窗口设定:以参考日期(死亡日期或匹配对照日期)前31天内六个时间点(D-1、D-2、D-3、D-7、D-15、D-31)提取污染物最大值或超标峰值;(4)主成分分析(PCA)与非监督K-means聚类,识别不同暴露特征的患者分组;(5)随机森林算法构建死亡预测模型,采用随机欠采样处理数据不平衡,以80%数据训练、20%测试。
**研究结果**
**3.1 患者特征**:最终队列包括44,268名患者,女性占80%,中位年龄64岁;乳腺癌占64%,胸部癌症占3%。死亡率为9%(n=3990)。
**3.2 空气质量暴露簇的确定——PCA**:PCA中第一主成分(PC1)聚合了颗粒物数据(PM
2.5、PM
10、NO
2),第二主成分(PC2)聚合了温度与O
3数据。K-means聚类(k=4)将患者分为四个簇:簇1(25%)暴露于高颗粒物但低温低O
3;簇2(18%)暴露于高温高O
3但低颗粒物;簇3(56%)暴露于低颗粒物、低温低O
3(最佳空气质量);簇4(1%)暴露于高颗粒物、高O
3和高温(最差条件)。PM
2.5中位数在簇1至簇4分别为35、23、22和47?μg/m
3。全局空间自相关检验(Moran's I)显著(I=0.046,z=20,p<0.001),表明各簇患者居住地空间分布非随机;Getis-Ord Gi*分析识别出热冷点,簇1主要集中于巴黎市中心及近郊,簇3分布于远郊。
**3.3 死亡事件**:死亡率为9%,胸部癌症死亡率最高(37%)。双变量分析显示年龄、肿瘤病理和性别为显著混杂因素。按簇标准化后,死亡率在簇1为12%,簇2为9%,簇3为8%,簇4为13%。卡方检验表明簇间死亡率差异显著(p<0.001),颗粒物水平最高的簇1和簇4呈现超额死亡,污染最低的簇3死亡率降低。
**3.4 与空气质量数据关联的死亡预测算法**:随机森林模型在测试集上达到78%准确率、80%召回率、F1分数0.41和ROC-AUC 0.85。最重要的15个预测特征包括:死亡前15天窗口内的最高温度(D15、D31、D7、D3、D0、D1、D2)、PM
2.5在31天窗口内超出WHO阈值的峰值次数及D7和D31的最大值、PM
10在D7的最大值、O
3在D1、D15和D0的最大值。
**讨论与结论**
讨论指出,本研究的地理信息技术优势在于将污染物数据以50×50?m粒度分配给每位患者,远优于常规的社区或城市级分辨率,Moran's I检验证实空气质量在短距离内存在变异,支持高分辨率方法的必要性。四个暴露簇的死亡率差异表明颗粒物水平与患者结局相关,这与既往研究一致。混杂因素(高龄、男性、胸部癌症)也与已知文献相符。31天滞后时间窗口为预防干预提供了可能,WHO空气质量阈值在本模型中更为关键,建议对癌症患者等脆弱人群设定更低阈值。研究局限性包括单中心设计、乳腺癌患者占比过高导致的选择偏倚、社会经济数据缺失等,未来需整合生物学数据探索机制。
研究结论:短期暴露于社区内尺度捕捉的劣质空气质量与癌症患者的超额死亡率相关。识别出的31天滞后时间窗口为预测算法提供了机会,凸显了针对性预防和及时公共卫生干预的重要性。