《PLOS Pathogens》:Statistical methods for predicting the presence of Salmonella Typhi in wastewater samples at Asante Akyem Agogo, Ghana
编辑推荐:
这篇研究评估了加纳Asante Akim North地区废水中伤寒沙门氏菌(S. Typhi)的检测情况。研究发现,pH值、季节、溶解氧(DO)和渠道宽度是关键预测因子,并比较了非空间模型(如广义估计方程GEE、混合效应模型GLMM和随机森林Random Forest)与空间模型(如贝叶斯广义可加模型GAM和空间GLMM)的性能。结果显示,非空间随机森林模型的预测效果最佳(准确度达99.3%)。该研究强调了将废水监测与机器学习结合,可有效提升伤寒等水源性传染病在资源有限地区的疫情预测和公共卫生干预能力。
研究背景
伤寒(Typhoid fever)是由伤寒沙门氏菌(Salmonella enterica serovar Typhi, S. Typhi)引起的一种重要公共卫生问题,在全球范围内每年造成大量病例和死亡。尤其是在资源有限、水和卫生基础设施不足的地区,临床监测受到限制。废水监测(wastewater surveillance)为追踪社区传播提供了一种经济有效的方法。然而,要利用废水数据转化为有价值的公共卫生见解,需要能够整合环境因素和时间演变信息的稳健预测模型。本研究旨在评估和比较空间与非空间统计模型在预测加纳Asante Akyem Agogo地区废水中S. Typhi检出的性能,并识别关键的环境风险因素。
材料与方法
本研究在加纳Asante Akim North地区的四个城镇(Agogo, Juansa, Hwidiem, Domeabra)开展,为期27个月(2022年6月至2024年9月)。研究共选择了40个采样点,每月重复采样。通过多重PCR技术检测S. Typhi,并利用Aquaprobe AP-2000设备测量pH、温度、溶解氧、盐度等物理化学参数。此外,通过现场调查问卷收集了水流速度、渠道宽度和深度等信息。
在统计建模方面,研究者评估了三类非空间模型和四类空间模型。非空间模型包括:广义估计方程(Generalized Estimating Equations, GEE)模型、混合效应模型(Generalized Linear Mixed Effects Model, GLMM)以及随机森林模型(Random Forest Model)。空间模型则包括:带有Matern协方差结构的空间GLMM模型、带有空间平滑项的广义可加模型(Generalized Additive Model, GAM)、包含空间坐标作为预测因子的随机森林模型,以及带有高斯过程(Gaussian Process, GP)先验的贝叶斯空间GAM模型。
为评估模型性能,研究者采用了按采样点分层的5折交叉验证方法,并使用准确度(Accuracy)、灵敏度(Sensitivity)和特异度(Specificity)作为评估指标。此外,研究还采用了SHapley Additive exPlanations(SHAP)分析来识别和解释影响S. Typhi检出的最重要环境因素。
研究结果
总体检出率与分布特征
在所有分析的样本中,S. Typhi的总阳性检出率为44.13%。检出情况存在显著的地域和季节性差异。在城镇层面,Hwidiem的检出率最高(57.69%),而Domeabra最低(15.38%)。季节性影响非常明显,雨季的阳性检出率(50.17%)显著高于旱季(35.11%)。此外,人类粪便标记物HF183的状态与S. Typhi的检出呈强相关,HF183阳性的样本中S. Typhi检出率更高(45.70% vs 26.58%)。水流速度快的样本(64.45%)以及渠道宽度在1-2米(58.70%)、深度中等(5-50厘米, 58.33%)的样本中,阳性检出率也更高。
在水质参数方面,S. Typhi阳性样本呈现出更高的pH值(7.46 vs. 7.40)、更高的溶解氧水平(46.97% vs. 36.77%),以及更高的降雨量(3.92mm vs. 3.30mm)。总溶解固体(TDS)在阳性样本中则较低(1092.2 mg/L vs. 1172.35 mg/L)。
模型性能比较
研究对时空模型的预测性能进行了系统比较。在非空间模型中,随机森林模型表现最为突出,其准确度、灵敏度和特异度分别达到了惊人的0.993、0.997和0.989。相比之下,GEE模型和混合效应模型的性能较差(准确度分别为0.608和0.622)。
在空间模型中,所有模型的性能均低于非空间随机森林模型。表现最好的模型是加入了空间特征的随机森林模型,其准确度为0.688,灵敏度为0.596,特异度为0.767。其他空间模型(如空间GLMM、带空间平滑的GAM、贝叶斯空间GAM)的性能也在相似范围内。
综合比较表明,非空间随机森林模型在预测废水样本中S. Typhi存在与否方面,显著优于所有空间模型和其他非空间统计方法。
关键风险因素识别
通过SHAP分析,研究人员从表现最佳的非空间随机森林模型中识别出了影响S. Typhi检出的关键预测因子。重要性排名前五的因素依次为:pH值、季节(Season)、溶解氧(Dissolved Oxygen, DO)、上个月的阳性情况(S_Typhi_lag1)以及渠道宽度(Channel Width)。
这些因素的影响方向也通过分析得以明确:较低的pH值(偏酸性条件)会增加检出风险;雨季(湿季)会显著提高检出率;较低的溶解氧水平与更高的S. Typhi检出可能性相关。水流速度与检出风险呈复杂的非线性关系,即流速非常慢或非常快时风险都较高。渠道宽度的风险也呈非线性,宽度在1-2米时风险最高,而过窄或过宽的渠道则风险较低。上个月的阳性情况(S_Typhi_lag1)是强有力的时间预测因子,表明过去的检出模式可以有效预测未来的爆发风险。
讨论
关键环境驱动因素
本研究证实,废水特征深刻影响着S. Typhi的流行。S. Typhi检出与人类粪便标记物HF183的强关联(χ2 = 10.78, p = 0.001)确证了人类污水输入是污染源。水流速度是关键因素,快速流动的废水阳性率(64.45%)显著高于慢流(38.85%)。中等宽度的渠道(1-2米)和中等深度(5-50厘米)与最高阳性率相关(分别为58.70%和58.33%),这可能是由于这些条件更利于细菌积累或存留。显著的季节性模式(雨季阳性率50.17% vs 旱季35.11%, p < 0.001)也与伤寒在地方性流行区域的已知流行病学特征相符。
水质相互作用
水化学参数进一步阐明了S. Typhi的生态学。阳性样本中较高的pH值(7.46 vs 7.40)和溶解氧(46.97% vs 36.77%),以及较高的降雨量(3.92 mm vs 3.30 mm)共同表明,S. Typhi可能在偏碱性、富氧且受降水影响的条件下繁殖和传播。
地理与时间异质性
不同城镇间存在显著的检测率差异(χ2 = 17.71, p < 0.001),凸显了局部影响因素的重要性。月检出率的显著波动以及上个月阳性情况的强大预测能力,都确认了时间自相关性,暗示了疫情传播模式或环境中存在持久性储库。
模型性能与公共卫生意义
一个关键发现是时间性随机森林模型(准确度0.993)的表现显著优于空间模型(最优模型准确度0.688)和传统统计模型(GEE, 混合效应)。这表明,季节性、历史阳性情况等时间模式以及环境变量间的非线性相互作用,对于预测S. Typhi检出至关重要。SHAP分析揭示了pH值、季节和溶解氧的主导作用,以及与流速、渠道宽度等因子之间复杂的非线性关系,凸显了利用高级建模技术解析环境病原体动态的必要性。
研究局限与展望
本研究存在一些局限性,包括不同城镇间样本量不均可能影响结果的普适性,以及极高模型精度可能引发的过拟合担忧(但研究已通过严格的交叉验证等方式进行了处理)。此外,HF183标记物无法区分伤寒携带者。未来的研究应在其他地区验证模型,并整合基因组学数据或探索与公共卫生信息系统的实时集成。
结论
本研究表明,加纳Asante Akyem Agogo地区废水中伤寒沙门氏菌(Salmonella Typhi)的检出受到环境、时间和空间因素的协同驱动。关键预测因子包括较低的pH值、雨季条件、较低的溶解氧水平、中等渠道宽度(1-2米)以及较高的水流速度。与人类粪便标记物(HF183)的强关联确认了污水污染是主要来源。重要的是,时间动态因素,尤其是历史检出情况和季节性降雨,其预测能力超过了空间因素。基于时间数据的随机森林模型达到了99.3%的预测准确度,显著优于空间模型和传统统计模型,突显了非线性、时间依赖性相互作用在理解环境中S. Typhi传播中的重要性。该模型有望集成到全球卫生安全议程(GHSA)和世界卫生组织全球抗菌素耐药性监测系统(WHO GLASS)等公共卫生监测网络中,在伤寒等疾病的地方性流行区域,实现基于环境监测的主动预警和干预。