
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于重尾矩阵变量隐马尔可夫模型的意大利省份劳动力市场动态分析
【字体: 大 中 小 】 时间:2025年05月13日 来源:Computational Statistics & Data Analysis 1.5
编辑推荐:
本文针对矩阵变量纵向数据中异常值检测和时序建模的挑战,提出了基于矩阵变量t分布(MVT)和污染正态分布(MVCN)的两种重尾隐马尔可夫模型(HMM)。研究人员开发了期望条件最大化(ECM)算法进行参数估计,并在R包MatrixHMM中实现。通过模拟研究验证了模型在参数恢复、稳健性和异常检测方面的优势,并应用于分析意大利各省就业率、失业率和非活跃率等劳动力市场指标的时空动态变化。该研究为处理复杂矩阵变量时序数据提供了新的方法论工具。
在当今数据科学时代,矩阵变量数据的分析变得越来越重要。这类数据广泛存在于经济、医学、环境科学等多个领域,其特点是每个观测单元都是一个矩阵而非简单的向量。特别是在研究具有时空特性的数据时,传统的分析方法往往将矩阵"展平"为向量进行处理,这不仅会丢失数据结构信息,还会导致参数估计复杂度过高。更棘手的是,现实数据中常常存在异常值,而矩阵形式的数据使得异常值的可视化识别变得异常困难。
针对这些问题,国内某高校的研究团队在《Computational Statistics》上发表了一项创新性研究。他们注意到现有的矩阵变量隐马尔可夫模型(MV-HMM)大多基于正态分布假设,对异常值敏感,且模型选择空间有限。为此,研究人员提出了两种新的重尾分布模型:基于矩阵变量t分布(MVT)和矩阵变量污染正态分布(MVCN)的隐马尔可夫模型,共构建了196种参数化形式(每种分布98种)。通过期望条件最大化(ECM)算法进行参数估计,并开发了R包MatrixHMM实现这些方法。
研究采用了多种关键技术方法:1) 基于特征分解的协方差矩阵参数化方法,大幅减少模型参数;2) 结合前向后向算法的ECM优化框架;3) 短EM初始化策略提高计算效率;4) 基于Mahalanobis距离的异常矩阵检测方法。研究使用了意大利107个省份2014-2019年的劳动力市场数据作为实证分析对象,包含就业率、失业率和非活跃率三个关键指标构成的3×1矩阵。
研究结果部分,首先通过模拟研究验证了模型性能:
在实际应用部分,对意大利劳动力市场的分析得出以下发现:
生物通微信公众号
知名企业招聘