基于社交媒体与谷歌趋势的禽流感早期预警系统构建及验证研究

【字体: 时间:2025年06月10日 来源:Expert Systems with Applications 7.5

编辑推荐:

  本研究针对传统禽流感病毒(AIV)监测系统时效性不足的问题,创新性整合X平台(原Twitter)和Google Trends数据,采用大语言模型(LLM)过滤噪声内容,通过交叉相关分析和自回归模型验证了网络活动对北美地区HPAI H5亚型疫情的早期预警价值,为动物疫病数字流行病学提供了新范式。

  

禽流感病毒(Avian Influenza Virus, AIV)尤其是高致病性禽流感(HPAI)的暴发不仅造成数十亿美元的经济损失,更因H5N1、H7N9等亚型跨种传播至哺乳动物的风险而成为全球公共卫生焦点。2014-2015年美国HPAI疫情导致直接损失33亿美元,而2021年以来H5亚型病毒的全球蔓延使得开发实时监测工具变得尤为迫切。传统监测系统依赖官方报告,存在显著的时间滞后性,而社交媒体和搜索引擎产生的海量数据为弥补这一缺陷提供了可能——当人们观察到异常禽类死亡或相关症状时,往往会在网络平台率先留下数字足迹。

加拿大圭尔夫大学的研究团队在《Expert Systems with Applications》发表的研究中,创新性地将X平台(原Twitter)的语义分析与Google Trends的搜索行为相结合,构建了首个针对动物疾病的数字流行病学预警框架。研究团队收集了2022年1月至2023年4月北美地区66周的纵向数据,采用三步走策略:首先利用大语言模型(LLM)精细过滤非相关推文,解决传统机器学习方法在语义理解上的局限;继而通过交叉相关函数量化网络活动与官方报告的时滞关系;最后采用自回归综合移动平均(ARIMA)模型进行预测效能评估。

关键方法
研究通过X学术API获取含地理标记的推文,结合专家审定的种子词库进行数据采集。采用微调的LLM模型进行文本分类,准确率较传统方法提升27%。Google Trends数据按周粒度采集,标准化为搜索分数。统计分析采用Spearman秩相关系数和交叉相关函数(CCF),预测模型选用带外生变量的ARIMAX框架。

全球种子词分析
通过多语言种子词库的频次分析发现,"bird flu"、"avian influenza"等术语在疫情暴发前2-3周出现显著峰值。值得注意的是,"dead birds"等非专业词汇的预测价值与专业术语相当,揭示了公众观察报告的重要性。

讨论
研究证实X数据和Google Trends分别能提前2.1周和1.7周检测到疫情暴发,组合使用时预警窗口延长至2.8周。ARIMAX模型显示,引入网络数据可使预测误差降低34%。特别值得关注的是,LLM过滤使相关推文识别准确率达到89%,远高于既往研究采用的朴素贝叶斯方法(62%)。

结论
该研究首次系统论证了数字流行病学在动物疾病监测中的适用性,建立了可解释的早期预警指标体系。通过LLM实现的语义增强型过滤机制,有效解决了社交媒体监测中的信噪比难题。这种低成本方案尤其适用于资源有限的地区,为构建"One Health"监测网络提供了关键技术支撑。未来研究可扩展至其他重要人畜共患病,并通过多模态数据融合进一步提升预测精度。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号