《Atmospheric Environment: X》:Livestock-related microbial air pollution: Implementing random forest modelling to predict residential endotoxin exposure
编辑推荐:
环境内毒素(endotoxin)是畜牧业相关生物气溶胶(bioaerosols)的关键组分,与健康效应相关,凸显出改进农村人群暴露评估的必要性。以往研究依赖于资源密集型的确定性扩散模型(dispersion models)或更实用的随机方法。迄今为止,土地利用
环境内毒素(endotoxin)是畜牧业相关生物气溶胶(bioaerosols)的关键组分,与健康效应相关,凸显出改进农村人群暴露评估的必要性。以往研究依赖于资源密集型的确定性扩散模型(dispersion models)或更实用的随机方法。迄今为止,土地利用回归(LUR)是唯一针对环境内毒素评估过的随机方法。研究人员评估随机森林(RF)作为预测住宅内毒素暴露的替代方法,假设其捕捉复杂非线性关系的能力将优于LUR。RF模型使用荷兰VGO研究项目(畜牧业与邻近居民健康研究)的数据进行训练,该数据包含61个住宅点(共236次测量)的重复测量和空间畜牧业相关预测因子。模型性能通过10折交叉验证(R2和RMSE)评估,变量重要性通过平均杂质减少(MDI)和Shapley加法解释(SHAP)评估。在最简单的预测因子水平上,RF略优于LUR(R2: 0.19 vs 0.10),在中间水平表现相当,而在最详细水平上LUR优于RF(R2: 0.24 vs 0.32)。两种方法均倾向于低估高暴露位点的浓度,表明在捕捉暴露分布上尾方面存在局限性。猪、家禽和牛指标始终是关键预测因子;SHAP揭示了与内毒素的非线性联系,突出了RF捕捉线性方法可能忽略的复杂模式的能力。总体而言,在数据受限且缺乏详细预测因子数据的情况下,RF提供了LUR的可行替代方案,但在获得详细预测因子数据时并未表现出普遍的性能优势。
**研究背景与意义**
畜牧业空气污染日益成为公共卫生关注焦点,其中微生物污染物如空气内毒素(endotoxin)是畜牧业生物气溶胶(bioaerosols)的关键组分,与呼吸系统健康效应密切相关。然而,以往研究多聚焦化学污染物,微生物空气污染的研究相对不足。在荷兰,密集的畜牧业与居民社区共存,催生了VGO研究项目(畜牧业与邻近居民健康研究)。该项目发展了空间模型用于住宅暴露评估,包括土地利用回归(LUR)和扩散模型(DISP),但两者均存在局限:LUR假设预测因子与污染物浓度呈线性关系,难以反映微生物排放的复杂非线性特征;扩散模型需要高质量源排放数据,而微生物参数常缺失或不确定。随机森林(RF)能捕捉非线性关系和交互作用,为改进暴露评估提供新可能。本研究旨在开发和评估RF模型预测住宅内毒素暴露,并与LUR和扩散模型对比,为流行病学提供更稳健的暴露评估工具。论文发表在《Atmospheric Environment: X》。
**关键技术方法**
研究人员利用荷兰VGO项目中61个住宅位点(共236次测量)的PM
10内毒素浓度数据,结合地理信息系统(GIS)衍生的畜牧业预测因子(包括农场距离、类型、动物数量等,分三级详细度),训练RF模型。模型采用嵌套10折交叉验证(site-level 10-fold cross-validation)进行超参数调优和性能评估,以R
2和RMSE为指标。变量重要性通过平均杂质减少(MDI)和Shapley加法解释(SHAP)量化。模型应用于2494个VGO队列居民地址,并与LUR和扩散模型预测值比较。
**研究结果**
- **3.1 测量位点内毒素浓度与畜牧业暴露变量**:61个位点年平均内毒素浓度范围0.13–0.85 EU/m
3,均值0.30 EU/m
3。靠近农场或高农场密度区域浓度较高。测量位点与居民地址的暴露变量分布相似,确保了模型适用性。
- **3.2 随机森林模型发展与性能**:三级RF模型中,最详细水平(level 3)表现最佳,10折交叉验证R
2=0.24,RMSE=0.11。与LUR对比:level 1时RF表现更好(R
2: 0.19 vs 0.10);level 2两者相当(0.20 vs 0.22);level 3 LUR略优(0.24 vs 0.32)。RF训练R
2随模型复杂度显著升高(level 3达0.92),但交叉验证R
2提升幅度小,表明过拟合风险,尤其是预测因子与位点比超过2:1时。残差图显示异方差性(高预测值处残差方差增大)。
- **3.3 随机森林模型的关键预测因子**:MDI和SHAP指标识别出猪、家禽和牛相关变量为重要预测因子。SHAP依赖图显示大部分预测因子与内毒素呈正相关、非线性关系,在低至中等暴露水平存在阈值效应,高暴露区趋于饱和。level 3中,距离加权的母猪和蛋鸡农场数量在3000m缓冲区内为共同重要变量。
- **3.4 模型应用于住宅地址**:所有模型(RF1-3, LUR1-3, DISP)预测至2494个居民地址。RF模型预测范围最窄,扩散模型最宽。Pearson相关系数介于0.52至0.93,所有p<0.001,显示模型间高度一致性。Bland-Altman图表明低浓度时RF预测略高,高浓度时RF预测低于LUR和DISP,差异随均值增大而扩大,显示异方差性。模型间最佳一致性位于预测值四分位距内,两尾端一致性下降。
**讨论总结**
RF模型在数据受限(仅基础预测因子)时略优于LUR,但在详细预测因子下LUR表现更好,两者互补。SHAP分析揭示了非线性关系,增强了RF的解释价值。RF的过拟合程度高于LUR,但通过嵌套交叉验证确保了客观评估。与扩散模型比较,RF和LUR在三级详细度下与扩散模型预测一致性最高,但高浓度处偏离较大,反映微生物污染物的高变异性。测量变异性(重复样本Pearson r=0.59)设定了模型性能上限,R
2约0.24可能已接近最大可解释方差。两种方法均低估高暴露浓度,压缩暴露对比度,可能削弱流行病学效应估计。本研究全面比较RF、LUR和扩散模型,强调模型选择需平衡数据可用性与复杂性。局限性包括极端暴露位点稀少导致预测不确定性,以及缺乏瞬时排放源数据。未来需增加重复测量以捕捉时空变异性。
**研究结论翻译**
本研究表明,RF和LUR模型在预测住宅内毒素暴露方面表现相当,两种方法在所有预测因子水平上均未表现出持续优势。RF在数据受限(仅有限预测因子可用)的情况下具有特殊价值,其捕捉非线性关系和交互作用的能力使其非常适合生物气溶胶建模的复杂性。LUR仍是一种有竞争力且易于解释的替代方案,并在获得详细预测因子数据时略优于RF。在缺乏详细农场级排放数据的情况下,两种方法都是扩散模型的实用替代方案。一个关键局限是RF不超出训练范围外推,可能在暴露尾部表现不佳,削弱暴露对比度并弱化暴露-反应分析。尽管如此,RF和LUR在畜牧业密集的农村环境中提供了有用的、针对特定因子的暴露估计,本研究结果支持其在未来畜牧业相关微生物空气污染流行病学研究中的应用。