基于Google Trends与统计模型的越南巴地头顿省登革热暴发风险早期预测研究

【字体: 时间:2025年05月27日 来源:Infectious Disease Modelling 3.0

编辑推荐:

  本研究针对越南巴地头顿省登革热(DF)疫情预警需求,创新性地结合Google Trends指数(GTI)与泊松回归模型,构建了7种预测模型。通过消除自相关(AC)并优化滞后效应,最终筛选出最优模型TSR Lag(GTI,0) + AC: Lag(log(SXH+1),1),其相关系数达0.98,AUC值超过0.98,显著提升疫情预测准确性。该研究为热带地区登革热防控提供了实时、低成本的数字化预警方案。

  

登革热(Dengue Fever, DF)作为由伊蚊传播的急性传染病,近年来在全球呈现爆发式增长,尤其在热带地区构成重大公共卫生威胁。越南巴地头顿省(BRVT)因其气候条件和城市化进程,成为登革热流行的高风险区域。传统疫情监测系统依赖临床病例报告,存在数据滞后、效率低下等瓶颈,难以满足早期预警需求。与此同时,数字流行病学的兴起为疾病监测提供了新思路——Google Trends指数(GTI)能实时反映公众健康信息搜索行为,但其在登革热预测中的应用仍面临模型稳定性不足、区域适用性有限等挑战。

为突破这些限制,研究人员开展了一项创新性研究,通过整合GTI数据与统计建模技术,构建高精度的登革热暴发预测体系。研究团队收集了BRVT省2019年1月至2023年8月共243周的登革热病例数据和越南语关键词"s?t xu?t huy?t"(登革热)的GTI搜索量,采用准泊松回归(quasi-Poisson)框架,系统分析了GTI滞后效应(lag time)与病例自相关性(AC)的交互影响。通过开发基于离散指数(dispersion index)的模型优选机制,最终从7种候选模型中筛选出预测效能最优的解决方案。

关键技术方法包括:1)基于时间序列回归(TSR)构建基础模型;2)采用对数转换消除病例数据的自相关性;3)通过交叉相关分析确定GTI最佳滞后周期(0-3周);4)利用受试者工作特征曲线(ROC)和约登指数(Youden index)评估模型预测效能。研究特别注重数据质量控制,病例数据来自BRVT省疾控中心(CDC)的医院诊断记录,GTI数据严格限定地理范围,缺失值采用相邻周均值插补。

研究结果部分揭示了多项重要发现:

  1. 描述性统计显示,研究期间BRVT省共报告34,658例登革热病例,周搜索量均值11.3%,与病例数呈同步上升趋势(r=0.94, p<0.001)。
  2. 变量相关性分析发现,GTI与病例数的最佳滞后时间为0周(即时效应),而病例自相关最强滞后为2周。
  3. 模型比较表明,结合即时GTI数据和1周对数病例滞后的模型(TSR Lag(GTI,0) + AC: Lag(log(SXH+1),1)表现最优,离散指数仅6.8,显著优于其他模型。
  4. 预测效能验证显示,在75%和95%疫情阈值下,模型AUC分别达0.982和0.984,敏感性与特异性均超过83%。

讨论部分深入分析了研究的理论与实践价值。与既往研究相比,该模型创新性地实现了GTI数据的即时预测(0周滞后),突破了传统方法需要1-3周预警期的限制。通过将GTI搜索量按四分位数分组(<50%、50-75%、75-95%、≥95%)转化为评分系统,极大提升了模型的临床适用性。研究也客观指出局限性:数据仅包含单一搜索关键词,且未整合气象因素和媒介监测数据。建议未来研究可结合卫星遥感、移动设备定位等多元数据源,构建更全面的预警体系。

这项发表在《Infectious Disease Modelling》的研究,为资源有限地区提供了可推广的数字化预警方案。其核心价值在于:1)证实GTI数据可作为登革热暴发的实时代理指标;2)开发出适应热带地区特点的预测算法;3)为公共卫生决策提供至少1周的预警窗口期。随着数字流行病学的发展,这种低成本、高时效的监测模式,有望在全球传染病防控中发挥更大作用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号