
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于Google Trends与统计模型的越南巴地头顿省登革热暴发风险早期预测研究
【字体: 大 中 小 】 时间:2025年05月27日 来源:Infectious Disease Modelling 3.0
编辑推荐:
本研究针对越南巴地头顿省登革热(DF)疫情预警需求,创新性地结合Google Trends指数(GTI)与泊松回归模型,构建了7种预测模型。通过消除自相关(AC)并优化滞后效应,最终筛选出最优模型TSR Lag(GTI,0) + AC: Lag(log(SXH+1),1),其相关系数达0.98,AUC值超过0.98,显著提升疫情预测准确性。该研究为热带地区登革热防控提供了实时、低成本的数字化预警方案。
登革热(Dengue Fever, DF)作为由伊蚊传播的急性传染病,近年来在全球呈现爆发式增长,尤其在热带地区构成重大公共卫生威胁。越南巴地头顿省(BRVT)因其气候条件和城市化进程,成为登革热流行的高风险区域。传统疫情监测系统依赖临床病例报告,存在数据滞后、效率低下等瓶颈,难以满足早期预警需求。与此同时,数字流行病学的兴起为疾病监测提供了新思路——Google Trends指数(GTI)能实时反映公众健康信息搜索行为,但其在登革热预测中的应用仍面临模型稳定性不足、区域适用性有限等挑战。
为突破这些限制,研究人员开展了一项创新性研究,通过整合GTI数据与统计建模技术,构建高精度的登革热暴发预测体系。研究团队收集了BRVT省2019年1月至2023年8月共243周的登革热病例数据和越南语关键词"s?t xu?t huy?t"(登革热)的GTI搜索量,采用准泊松回归(quasi-Poisson)框架,系统分析了GTI滞后效应(lag time)与病例自相关性(AC)的交互影响。通过开发基于离散指数(dispersion index)的模型优选机制,最终从7种候选模型中筛选出预测效能最优的解决方案。
关键技术方法包括:1)基于时间序列回归(TSR)构建基础模型;2)采用对数转换消除病例数据的自相关性;3)通过交叉相关分析确定GTI最佳滞后周期(0-3周);4)利用受试者工作特征曲线(ROC)和约登指数(Youden index)评估模型预测效能。研究特别注重数据质量控制,病例数据来自BRVT省疾控中心(CDC)的医院诊断记录,GTI数据严格限定地理范围,缺失值采用相邻周均值插补。
研究结果部分揭示了多项重要发现:
讨论部分深入分析了研究的理论与实践价值。与既往研究相比,该模型创新性地实现了GTI数据的即时预测(0周滞后),突破了传统方法需要1-3周预警期的限制。通过将GTI搜索量按四分位数分组(<50%、50-75%、75-95%、≥95%)转化为评分系统,极大提升了模型的临床适用性。研究也客观指出局限性:数据仅包含单一搜索关键词,且未整合气象因素和媒介监测数据。建议未来研究可结合卫星遥感、移动设备定位等多元数据源,构建更全面的预警体系。
这项发表在《Infectious Disease Modelling》的研究,为资源有限地区提供了可推广的数字化预警方案。其核心价值在于:1)证实GTI数据可作为登革热暴发的实时代理指标;2)开发出适应热带地区特点的预测算法;3)为公共卫生决策提供至少1周的预警窗口期。随着数字流行病学的发展,这种低成本、高时效的监测模式,有望在全球传染病防控中发挥更大作用。
生物通微信公众号
知名企业招聘