机器学习算法揭示中低收入国家五岁以下儿童感染症状双重与三重负担的环境预测因素

《Infectious Diseases of Poverty》:Effects of environment and globalization on the double and triple burdens of infection symptoms among under-five children across low-middle income countries using machine learning algorithms

【字体: 时间:2025年11月21日 来源:Infectious Diseases of Poverty 5.5

编辑推荐:

  本研究针对中低收入国家(LMICs)五岁以下儿童感染症状负担高的公共卫生问题,利用多水平机器学习算法分析58个国家154万余名儿童数据,探讨了环境污染物(PM2.5、NO2)与社会全球化因素对发热、咳嗽和腹泻共病现象(DBs/TBs)的预测作用。结果显示随机森林(RF)模型预测性能最优(AUC=94%-99%),发现地区差异、家庭财富指数和空气污染是主要影响因素,为精准干预提供了数据支持。

  
在资源有限的低收入和中等收入国家,五岁以下儿童的健康状况始终牵动着全球公共卫生领域的神经。发热、咳嗽和腹泻这些看似普通的感染症状,每年却夺走了数以万计幼小生命。更令人担忧的是,这些症状往往不是单独出现,而是以双重(DBs)或三重(TBs)负担的形式纠缠在一起,给本已脆弱的儿童健康雪上加霜。然而,当前研究多局限于单一症状或单一国家的分析,对于多种症状共存的复杂模式及其环境驱动因素的认识仍显不足。传统统计方法在处理大规模、多层次数据时的局限性,也限制了我们精准识别高风险群体和制定针对性干预措施的能力。
正是在这样的背景下,Haile Mekonnen Fenta及其合作团队在《Infectious Diseases of Poverty》上发表了一项开创性研究,他们巧妙地将多水平模型与机器学习算法相结合,深入探索了58个中低收入国家中五岁以下儿童感染症状共病现象的环境预测因素。这项研究不仅揭示了问题的严重程度——超过11.9%的儿童遭受双重症状困扰,3.7%面临三重症状负担,更重要的是构建了一个强大的预测框架,为资源优化配置和精准干预提供了科学依据。
研究人员采用了一项多源数据融合的策略,核心数据来自三个渠道:人口与健康调查(DHS)提供的154万余名儿童的健康与社会经济数据、美国国家航空航天局(NASA)卫星反演的空气污染物(PM2.5和NO2)浓度数据,以及KOF全球化指数的国家层面政治、社会和经济全球化指标。技术路线上,首先利用多水平逻辑回归模型筛选出显著的影响因素,然后运用多种机器学习算法(包括随机森林、逻辑回归及其正则化变体、朴素贝叶斯和决策树等)构建预测模型,并通过不同的训练集-测试集划分比例(80:20、70:30、60:40)和交叉验证策略(2折、5折、10折)来评估和比较模型性能。针对数据不平衡问题,研究采用了过采样和欠采样相结合的方法进行处理。
地理分布与疾病负担
研究结果显示,五岁以下儿童感染症状的负担存在明显的时空异质性。从2000年至2023年,虽然总体患病率呈缓慢下降趋势,但不同地区和国家的差异悬殊。拉丁美洲地区的儿童面临的双重症状负担最高(20.14%),而非洲和亚洲地区分别为13.05%和9.75%。在国家层面,海地(拉丁美洲)、孟加拉国(亚洲)和乌干达(非洲)持续显示出最高的双重和三重感染症状共病率。乌干达儿童出现双重和三重症状的对数优势比分别比58个国家的平均水平高出2.19和2.90。
多水平模型分析结果
通过三层(儿童-地区-国家)多水平模型分析,研究发现双重和三重症状负担的变异有相当部分可归因于地区(ICC=13.3%)和国家(ICC=8.8%)层面的差异。这表明地理位置是影响儿童健康的重要背景因素。模型识别出的关键预测因素包括:调查年份、家庭财富指数、居住地(城乡)、家庭规模、PM2.5暴露水平、烹饪燃料类型、卫生设施条件、饮用水来源以及家庭吸烟风险等。值得注意的是,近99%的儿童生活在PM2.5浓度超过世界卫生组织推荐限值(5μg/m3)的环境中。
机器学习模型比较
在预测模型性能方面,随机森林(RF)算法表现最为出色,在10折交叉验证和80:20训练测试集划分下,对双重和三重症状负担预测的曲线下面积(AUC)分别达到了94%和99%。其他算法如弹性网络(Elastic Net)和LASSO回归也显示出良好的预测能力,但整体上随机森林的稳定性和准确性最高。这一结果表明,基于决策树集成学习的随机森林算法能够有效捕捉多源数据中的复杂非线性关系,特别适合于儿童健康风险的预测。
生物学合理性探讨
研究还从生物学机制角度解释了PM2.5与感染症状之间的关联。对于发热症状,PM2.5可能通过激活免疫系统、引发氧化应激和系统性炎症,促进白细胞介素-1(IL-1)、IL-6等促炎细胞因子的释放,这些细胞因子作用于下丘脑,增加前列腺素E2的产生,从而引发发热反应。对于咳嗽症状,PM2.5可能通过上调NF-κB信号通路,增加促炎细胞因子产生,导致气道炎症。同时,PM2.5可能增加气道上皮中瞬时受体电位香草素1(TRPV1)的表达,提高咳嗽反射敏感性。对于腹泻症状,吸入的PM2.5可能通过粘膜清除或直接摄入进入胃肠道,破坏肠道屏障功能,引起肠道炎症,并通过扰乱调节性T细胞(T reg)和辅助性T细胞(Th17)的平衡,改变肠道菌群组成,最终导致腹泻。
研究的结论部分强调,这项研究首次在大规模跨国数据基础上,应用多水平模型和机器学习算法系统分析了五岁以下儿童感染症状共病现象的环境预测因素。随机森林算法展现出的优异预测性能,为在资源有限设置下实现儿童健康风险的精准预测和干预目标定位提供了有力工具。研究发现的地理差异提示,公共卫生干预措施需要考虑地方特异性,特别是在政治不稳定、基础设施薄弱的地区。空气污染与症状负担的强烈关联则凸显了环境治理在改善儿童健康中的重要性。
尽管研究存在横断面设计限制因果推断、调查年份不同可能导致比较偏差、以及症状信息依赖母亲回忆可能引入报告偏倚等局限性,但这项研究无疑为理解和管理中低收入国家儿童感染症状共病问题提供了重要洞见。未来研究方向可能包括开展纵向分析以追踪症状共病的时间趋势,以及将预测模型整合到公共卫生决策支持系统中,实现有限资源的最优配置。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号