空间与时空机器学习模型在COVID-19动态研究中的应用与方法学报告实践综述

【字体: 时间:2025年10月24日 来源:Epidemiologic Reviews 3.8

编辑推荐:

  本刊编辑推荐:为系统梳理空间与时空机器学习(ML)模型在解析COVID-19传播动态及局部驱动因素中的应用,研究人员对Scopus、Web of Science等数据库的42项高质量研究进行了系统性回顾。结果表明,当前研究多采用全局模型,且缺乏对复合指标(composite indicators)的整合。该综述为优化模型复杂性、提升 interpretability 及制定精准公共卫生策略提供了关键方法学参考。

  
新型冠状病毒肺炎(COVID-19)已从全球大流行过渡到地方性流行阶段,但变异毒株的持续出现仍对公共卫生系统构成严峻挑战。在这场持续的健康危机中,理解疾病传播的时空规律及其背后的社会、环境、行为等多维度驱动因素,成为制定有效干预措施的核心。传统统计学模型虽在疫情分析中发挥了重要作用,但随着数据复杂度的提升和对非线性关系挖掘的需求,机器学习(Machine Learning, ML)技术凭借其处理高维异构数据和捕捉复杂模式的能力,逐渐成为流行病学研究的新兴工具。然而,当前研究存在模型应用碎片化、局部时空异质性刻画不足、驱动因素分析单一等问题,亟需对空间与时空机器学习模型的方法学应用和报告实践进行系统性总结。
为此,发表在《Epidemiologic Reviews》上的这篇综述文章,旨在全面评估空间与时空ML模型在COVID-19动态研究中的应用现状,重点关注其方法学选择、报告规范以及所考察的局部层面驱动因素。研究团队遵循PRISMA(Preferred Reporting Items for Systematic Reviews and Meta-Analyses)指南,对截至2024年4月的文献进行了系统检索与严格筛选。
为开展此项研究,作者团队采用了几个关键技术方法:首先,基于PRISMA指南的系统性文献检索策略,覆盖Scopus、Web of Science、PubMed等多个权威数据库;其次,使用CHARMS(Critical Appraisal and Data Extraction for Systematic Reviews of Prediction Modelling Studies)清单进行数据提取,确保信息收集的标准化;第三,采用经过验证的质量评价工具对纳入研究的 methodological quality 进行独立评估,以保证综述结果的可靠性;最后,对模型类型(如全局模型与局部模型、混合模型与非混合模型)、分析焦点(预测性、描述性、聚类、异常分析)、评估指标(如RMSE, MAE, R-squared等)以及软件使用(如Python, R)进行了系统分类与频次分析。
综述概况
经过严格筛选,最终纳入42项高质量研究进行深入分析。这些研究发表于2020年至2024年间,其中2022年最为集中。在地理分布上,美国的研究数量遥遥领先,其次为西班牙、意大利、巴西和中国,而非洲、亚洲、澳大利亚和南美洲的相关研究则相对匮乏。纳入研究的平均质量得分较高(14.62/16分),表明整体方法学严谨性较好。
COVID-19结局指标
研究所关注的COVID-19结局指标呈现多样化。最常被分析的指标是确诊病例(23项研究),其次是发病率(13项研究)、死亡病例(7项研究)、康复率(4项研究)、死亡率(3项研究)、风险或患病率(3项研究)以及住院人数(2项研究)。仅有少数研究同时分析了多个重叠的结局指标。
局部层面驱动因素
研究对影响COVID-19动态的局部层面驱动因素进行了细致归类,共识别出十大类背景因素:人口统计学、社会经济、环境、流行病学、医疗卫生、住房条件、行为、疫苗接种、政府政策和流动性。分析发现,有29项研究至少包含一类上述驱动因素,而13项研究未包含任何明确的局部驱动因素。人口密度、人口规模、种族/民族构成、老年人比例、温度、颗粒物(PM2.5, PM10)、收入、失业率等长期存在的独立因素被频繁使用。一个显著的不足是,仅有6项研究采用了复合指标(composite indicators),即通过整合多个独立因素形成单一评分,例如社会脆弱性指数(Social Vulnerability Index)或严格指数(Stringency Index)。复合指标具有简化模型结构、提升可解释性和模型性能的潜力,但其在当前研究中的应用明显不足。
空间与时空机器学习模型
研究对所使用的ML模型进行了多维度分类,包括全局模型与局部模型、混合模型与非混合模型。全局模型指在整个研究区域使用统一参数的模型,而局部模型则允许参数随子区域变化以捕捉空间异质性。混合ML模型是指将ML算法与其他建模技术(如其他ML模型、统计学模型或机制模型)相结合,以发挥各自优势。
分析结果显示:
  • 局部模型应用有限: 没有研究专门使用混合局部时空ML模型。仅有3项研究应用了非混合空间ML模型,即地理随机森林(Geographically Random Forest, GRF),用于在局部层面探索COVID-19结局与各种驱动因素的关系。这表明能够有效处理时空依赖关系的局部ML模型尚待开发与应用。
  • 全局模型占主导: 大多数研究采用了全局空间和时空ML模型,且以混合模型为主。常用的时空ML模型包括时空图卷积神经网络(Spatiotemporal Graph Convolutional Neural Networks, STGCN (Yu))、跨位置注意力图神经网络(ColaGNN)、COVID图神经网络(CovidGNN)、卷积长短期记忆网络(ConvLSTM (Shi)、ConvLSTM (Paul'20))、图小波网络(Graph WaveNet, GWNet)等。在非混合类别中,则包含了多种图神经网络(GNN)、卷积神经网络(CNN)架构以及自组织映射(SOM)等。
分析焦点、评估指标与软件
研究的分析焦点可分为四类:预测性分析(31项)、描述性分析(3项)、聚类分析(2项)和异常分析(2项),另有少数研究结合了多种分析焦点。在模型评估方面,均方根误差(RMSE)和平均绝对误差(MAE)是最常用的性能指标。软件方面,Python是应用最广泛的编程语言(22项研究),其次是R语言(5项研究)。
讨论与结论
该综述指出,尽管空间和时空ML模型在COVID-19研究中展现出巨大潜力,但当前研究存在明显偏向性:全球尺度模型的应用远多于局部模型,这限制了模型对地区特异性模式的捕捉能力;同时,驱动因素的分析过度依赖独立变量,未能充分利用复合指标来简化模型并增强解释力。此外,研究地域分布不均,欧美地区以外的中低收入国家和地区的研究代表性不足,可能影响模型在这些区域的适用性和针对性干预策略的制定。
展望未来,研究人员强调,应优先发展和应用局部空间与时空ML模型,以更精细地揭示疾病的异质性传播规律。同时,鼓励在模型中引入和构建复合指标,以更综合地衡量社区脆弱性或风险。加强在代表性不足地区的研究,整合当地特有的驱动因素,对于提升全球公共卫生应对未来健康威胁的准备能力至关重要。本研究系统梳理了该领域的方法学实践与知识缺口,为优化COVID-19及未来新发传染病的建模分析提供了重要参考框架,有助于推动数据驱动的精准公共卫生决策。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号