
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于空间加权数据融合和热点不平衡处理的曼氏血吸虫病早期预测模型优化研究
【字体: 大 中 小 】 时间:2025年07月17日 来源:PLOS Pathogens 5.5
编辑推荐:
这篇综述创新性地提出通过空间加权数据融合技术(spTIDW)整合多源数据(生物学、地理学、社会学等7类预测因子),结合合成采样方法(ROSE)解决热点不平衡问题,显著提升曼氏血吸虫病(Schistosoma mansoni)热点区域早期预测准确度(最高提升37.9%),为大规模药物投放(MDA)策略提供精准指导。
【背景】
曼氏血吸虫(S. mansoni)感染作为被忽视的热带寄生虫病,威胁全球2.5亿人口健康。尽管大规模药物投放(MDA)是主要防控手段,但治疗无应答的高传播区域(即热点,PHSs)仍是消除该病的核心挑战。传统方法需至少3年感染数据才能预测热点,而本研究基于SCORE项目5年数据,首次提出仅用基线年份数据实现早期预测的创新框架。
【方法创新】
研究团队开发了空间截断反距离加权(spTIDW)技术,通过分析感染数据的空间自相关性(肯尼亚空间相关范围12-20km,坦桑尼亚40-50km),将7类公开次级数据(环境、农业、生物等)融合为空间加权预测因子。为解决热点比例失衡问题(坦桑尼亚热点占72% vs 肯尼亚35%),采用随机过采样技术(ROSE包)生成合成训练集。模型构建方面,除常规机器学习(GBM、RF等8种),新增6种非线性模型(如LogitGPs高斯过程回归),共测试14种算法。
【关键发现】
数据融合效能:相比仅用基线感染数据,结合生物学预测因子使准确率提升10%(最高RI),地理学(8.6%)和社会学(6.6%)次之。土壤湿度、降水和耕地是三大最具解释力因子。
不平衡处理:在跨国预测场景中,农业类预测因子经不平衡处理后提升达37.9%,显著优于未处理模型(原准确率仅31-46%)。
模型性能:动态树模型(DyTrees)在跨国验证中表现最优(中位准确率73.65%),高斯过程回归(LogitGPs)在混合国家场景达72.2%准确率。
【应用价值】
该方法成功预测了维多利亚湖流域295个村庄的热点分布(定义I:感染强度降低<50%且流行率降低<35%的村庄),其空间异质性分析显示临湖区域因复杂传播动力学导致预测难度更高。研究建立的公开数据管道(含NASA土壤湿度、世界pop人口密度等21种数据集)为全球其他血吸虫病流行区提供了可扩展方案。
【局限与展望】
当前模型未纳入个体卫生习惯、职业暴露风险等关键协变量,且仅针对S. mansoni。作者建议未来整合蜗牛宿主分布数据,并通过模型堆叠(stacked ensemble)进一步提升泛化能力。这些突破为WHO 2030消除血吸虫病公共卫生危害目标提供了关键技术支撑。
生物通微信公众号
知名企业招聘