
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于路径签名分析的巴西城市登革热高发病率预测模型研究
【字体: 大 中 小 】 时间:2025年07月25日 来源:Scientific Reports 3.8
编辑推荐:
本研究针对登革热疫情预测的公共卫生需求,创新性地将路径签名(Path signatures)方法应用于巴西27个州首府2014-2024年的流行病学和气候数据。通过构建包含病例数、温湿度等特征的时序路径,采用截断水平m=4的log-signature特征提取结合lasso回归,实现对高发病率季节(Top 20%)的早期预警,敏感度达75%,特异度最高达100%。该框架为资源优化配置提供了量化决策工具,可推广至其他虫媒传染病监测。
在热带地区肆虐的登革热病毒每年造成全球数亿人感染,巴西作为重灾区,仅2023年就报告了170万病例。传统疫情预测方法面临两大挑战:一是流行病学数据具有强季节性和高噪声特性,二是气候因素与疾病传播的非线性关系难以量化。当卫生部门需要提前部署防控资源时,往往缺乏可靠的量化依据。
巴西奥斯瓦尔多·克鲁兹基金会科学计算项目组的研究人员突破性地将金融数学中的路径签名方法引入流行病学研究。他们分析了27个州首府十年间的周报病例数据和气象站记录的温湿度指标,构建出包含6个核心特征的时序路径。通过计算截断水平m=4的log-signature(对数签名),将复杂的时空交互作用转化为728维特征向量,再经lasso回归筛选关键预测因子。
研究团队采用了三项关键技术:1)基于巴西国家传染病报告系统(SINAN)的周报病例数据构建年度流行病学周期;2)通过Infodengue项目获取气象站实测的温湿度数据;3)应用Python的esig包进行路径签名计算,结合R语言的glmNet实现lasso正则化逻辑回归。数据增强方面测试了时间嵌入、超前-滞后(lead-lag)变换等方法提升特征表达能力。
流行病学和气候数据特征
分析显示各年度累计发病率差异显著,2023/2024季节达到峰值(均值2928.8例,标准差3735.1),而2020/2021季节最低(均值375.3例)。病例高峰多出现在第34-38周(2-3月),但不同城市存在1-53周的广泛波动。
预测性能评估
采用时间+超前-滞后变换的嵌入方式在观察35周后即显现优势:对Top 20%高发季节的预测敏感度达77%(95%CI:57-90%),观察48周时提升至91%。AUC值在46周观察期达到0.75,Youden指数在35周时突破0.6。特异性表现更为突出,多数场景下维持在75-100%区间。
气候因素关联性
温度与湿度指标呈现显著地域差异,平均温度跨度达12°C(17.3-29.2°C),最小湿度波动范围达50个百分点(33.7-83.5%)。这些气候参数通过影响埃及伊蚊的繁殖周期和病毒外潜伏期,最终反映在发病率的时空异质性中。
这项研究首次将路径签名方法应用于群体水平的传染病预测,其创新性体现在三方面:一是突破了传统模型对数据完整性的要求,无需插补即可处理缺失值;二是通过高阶交互项捕捉了气候-疾病传播的非线性动力学;三是构建了可解释的二进制预警指标(Top X%),直接服务于资源调配决策。虽然目前仅应用于州首府数据,但框架可扩展至非首府城市及其他虫媒病。未来整合降雨量、蚊媒密度等特征后,预测精度有望进一步提升。该成果为建立"智能疫情预警2.0"提供了方法论基础,相关代码已开源供全球科研团队验证拓展。
生物通微信公众号
知名企业招聘