网络时间序列分析新工具及其在COVID-19机械通气床位占用预测中的应用
《Journal of the Royal Statistical Society Series A: Statistics in Society》:New tools for network time series with an application to COVID-19 hospitalisations
【字体:
大
中
小
】
时间:2025年10月26日
来源:Journal of the Royal Statistical Society Series A: Statistics in Society 1.5
编辑推荐:
本研究针对高维动态网络时间序列建模中模型选择困难、计算复杂度高的问题,开发了网络自相关函数(NACF)、偏网络自相关函数(PNACF)和Corbit可视化工具。通过将广义网络自回归(GNAR)过程重新解释为广义图模型,证明了其在COVID-19机械通气床位占用预测中的卓越性能,为公共卫生危机管理提供了新的分析范式。
在当今数据驱动的时代,网络时间序列模型正成为理解复杂动态现象的关键工具。从神经科学到生物医学,从商业分析到流行病学,许多领域都面临着如何从带有网络结构的高维时间序列数据中提取有价值信息的挑战。特别是在COVID-19大流行期间,准确预测各医院机械通气床位的需求变化,对于医疗资源调配和公共卫生政策制定具有至关重要的意义。
传统的时间序列分析方法在处理网络结构数据时往往力不从心,而复杂的多元时间序列模型又面临"维度灾难"的问题——当变量数量增加时,需要估计的参数呈几何级数增长。针对这一难题,帝国理工学院和伦敦大学学院的研究团队在《Journal of the Royal Statistical Society Series A: Statistics in Society》上发表了一项突破性研究,开发了一套全新的网络时间序列分析工具。
研究人员首先建立了理论框架,将广义网络自回归(GNAR)模型表示为约束型向量自回归(VAR)过程。通过引入r阶邻域的概念,将网络节点按照最短路径距离进行分类,使得模型能够捕捉不同空间尺度上的相互影响。与需要估计p×d2个参数的传统VAR模型相比,GNAR模型仅需估计p+∑k=1psk个参数,大大降低了模型复杂度。
研究的关键创新在于提出了两种新的关联度量:网络自相关函数(NACF)和偏网络自相关函数(PNACF),以及相应的Corbit可视化图形。这些工具能够快速揭示网络时间序列的底层相关结构,指导模型选择,比传统的信息准则(如AIC和BIC)更为高效。特别是在处理像月度数据这样可能需要考虑p=12个滞后项的情况时,传统方法需要评估212×5≈1018个模型,而Corbit图能直接识别出关键的时间滞后和空间邻域阶数。
技术方法上,本研究主要采用了网络时间序列建模、广义网络自回归(GNAR)模型估计、网络自相关函数(NACF)与偏网络自相关函数(PNACF)计算、Corbit和R-Corbit可视化技术。研究数据来源于英国政府冠状病毒仪表板,包含140个NHS信托机构从2020年4月至2021年7月共452天的机械通气床位占用记录,网络结构基于信托机构间的地理距离构建(距离阈值D=120公里)。
研究团队对GNAR模型进行了重新表述,引入了分层矩阵表示法,使模型表达更加紧凑。通过Hadamard积运算结合r阶邻接矩阵Sr和权重矩阵W,实现了对每个节点r阶邻域的选择和加权。节点i在时间t的取值Xi,t取决于其自身前p个时间点的取值以及其各阶邻域节点在相应时间点的加权平均值,其中权重wij根据节点间的相关性进行归一化处理,确保每个r阶邻域的权重之和为1。
网络自相关函数(NACF)通过公式9定义,不仅考虑了时间滞后h,还引入了r阶邻域的概念。与普通自相关函数不同,NACF在分子中引入了W⊙Sr项,用于选择和加权r阶邻域的影响,同时通过自协方差边界λ确保-1≤nacf(h,r)≤1。偏网络自相关函数(PNACF)则进一步消除了前序滞后和r阶邻域的影响,能更清晰地识别模型阶数。
Corbit图以环形方式展示NACF或PNACF值,内环对应低阶邻域,外环对应高阶邻域,环上的数字表示时间滞后。点的大小和颜色反映了相关性的强度,使研究人员能够直观地识别模型阶数和其他特征。如图2所示,Corbit图能清晰显示网络自相关随滞后和邻域阶数的衰减模式。
研究证明了GNAR过程可视为多元时间序列的广义图模型,通过引入高阶交互作用扩展了传统的基于边的交互。理论分析表明,GNAR过程诱导的相关结构等价于过程具有层次依赖结构,这可以从逆谱矩阵中识别出来。当限制GNAR仅考虑1阶邻域回归时,其诱导的相关结构等价于多元时间序列的图模型。
研究还提出了一个新的解释:将先验网络知识融入分析相当于对GNAR模型进行变量选择和收缩。GNAR表述可视为对约束型VAR模型的重新参数化,其中r阶邻域的选择相当于对自回归系数施加?0-球约束,而权重归一化则可视为对活动系数的?2-范数约束。
应用研究表明,GNAR(1,[1])模型在预测COVID-19机械通气床位需求方面表现优异,其均方预测误差(MSPE)比稀疏VAR(1)模型低约35%,比限制性VAR(1)模型低约30%。参数估计值为α?1≈0.95和β?1,1≈0.043,均在0.1%水平上统计显著。
研究还引入了R-Corbit图,用于比较不同时间段或协变量水平下的相关结构变化。如图5所示,第二波疫情期间的相关性明显高于第一波疫情和间隔期,反映了疫情防控措施变化对病毒传播动态的影响。
通过全局相关性指数(18)和局部相关性指数(19),研究识别出了对网络时间序列动态最具影响力的NHS信托机构。如图6所示,最具相关性的信托机构主要分布在伦敦西北部(介于伦敦、西米德兰兹郡、布里斯托尔和南安普顿/朴茨茅斯城市中心之间)以及西米德兰兹郡、曼彻斯特、谢菲尔德、诺丁汉、西约克郡和利物浦等城市中心之间的区域。这些发现对于未来流行病防控中的针对性干预措施具有重要启示。
本研究开发的网络时间序列分析新工具不仅为高维动态数据建模提供了有效方法,而且在公共卫生危机管理中展示了实际应用价值。通过将复杂网络结构与时间序列分析相结合,GNAR框架实现了参数节俭性和模型解释性的平衡,为类似问题的研究提供了新范式。未来工作可进一步探索趋势去除、平稳性检验以及更精细的网络构建方法,这些方向将进一步完善网络时间序列分析的理论体系和应用范围。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号