含协变量驱动隐马尔可夫模型(Covariate-driven Hidden Markov Model, HMM)中状态占有概率(State Occupancy)的推断

《Methods in Ecology and Evolution》：Inference on state occupancy in covariate-driven hidden Markov models

【字体：大中小】 时间：2026年07月03日 来源：Methods in Ecology and Evolution 5.7

编辑推荐：

　　摘要：隐马尔可夫模型(Hidden Markov Models, HMMs)是基于移动、加速度及其他传感器数据分析动物行为自然且常用的工具。HMM可使研究人员推断动物决策过程如何与内部及外部驱动因子相互作用，方法是将不同行为状态间的切换概率与协变量相关联。(1

摘要：隐马尔可夫模型(Hidden Markov Models, HMMs)是基于移动、加速度及其他传感器数据分析动物行为自然且常用的工具。HMM可使研究人员推断动物决策过程如何与内部及外部驱动因子相互作用，方法是将不同行为状态间的切换概率与协变量相关联。(1) 在基于协变量驱动HMM（尤其状态数多于两个时）分析生态学数据的主要统计挑战是模型解释困难，因需同时解释状态切换概率与各协变量间的多个函数关系。将模型隐含的、以关注协变量为函数的不同状态占有概率作为更简洁有用的汇总统计量可解决此问题。(2) 现有文献常采用一种实用的近似——固定协变量值时模型底层马尔可夫链假设平稳分布(Hypothetical Stationary Distribution, 常称平稳状态概率Stationary State Probabilities)——来近似状态占有分布。然而研究表明，对于具有较低持续性的随机变化协变量过程，该近似可能产生严重偏倚(Bias)，从而使基于此近似的重要汇总统计量的生态推断失效。(3) 本文提出三种获取以关注协变量为函数的状态占有分布(State Occupancy Distribution)的替代方法：两种基于协变量过程重采样(Resampling)，第三种通过对经验状态概率(Empirical State Probabilities)进行回归分析获得。模拟实验及加拉帕戈斯象龟(Chelonoidis niger)移动数据案例研究展示了这些方法的实际应用。所提方法使研究人员能对动物行为与各类协变量间关系进行无偏推断，从而揭示影响动物行为决策的因子。(4)

论文解读：含协变量驱动隐马尔可夫模型中状态占有概率的推断

研究背景与问题提出

隐马尔可夫模型(Covariate-driven Hidden Markov Model, HMM)广泛应用于动物行为生态学，通过将状态转移概率(Transition Probability, γ_ij^(t))建模为协变量（如温度、降雨）的多元Logit函数，来揭示环境因子对潜在行为状态（如休息Resting、觅食Area-restricted Searching、迁徙Travelling）切换的影响。当HMM包含N≥3个状态时，需解释N×(N-1)个转移概率-协变量关系，解读极为困难。现有惯例采用Patterson等(2009)提出的假设平稳分布(Hypothetical Stationary Distribution, ρ(z))——即固定协变量z时底层马尔可夫链的平稳分布——近似真实的状态占有概率(State Occupancy Probability, Pr(state i|z)=E[δ_i^(t)|Z_t=z])。该近似忽略了协变量过程的时序依赖性(Temporal Dependence/Persistence)；当协变量波动大（低持续性/Volatile Covariate Process）时，假设平稳分布与真实占有概率偏差显著，且在生态推断关键的极端协变量值处偏差最大，导致行为-环境关系推断偏倚。本文刊发于《Methods in Ecology and Evolution》，旨在修正此偏差并提供无偏估计方法。

关键技术方法

研究人员采用三类方法估计Pr(state i|z)：①自回归(Autoregressive, AR)重采样法——拟合AR(p)或向量AR(Vector AR, VAR)模拟长协变量序列，按式δ^(t)=δ⁽¹⁾·Γ(z₂)·…·Γ(z_t)向前递推得经验状态分布δ^(t)，按协变量分箱平均；②块自举(Block Bootstrap, BB)法——将观测协变量分段为长度L的连续块（L取自相关函数衰减滞后或季节周期），有放回抽样拼接成长序列后同法算δ^(t)，对具季节趋势者先剔除周期成分再BB残差；③柔性Dirichlet回归(Dirichlet Regression)法——以观测协变量对应的δ^(t)为成分响应(Compositional Response)，设δ^(t)~Dirichlet(α_t)，浓度参数α_ti=exp{f_i(z_t)}用惩罚样条(Penalized Spline, mgcv包薄板回归样条Thin-plate Regression Spline)拟合，最大化惩罚对数似然得平滑估计。模拟实验设高持久AR(1)(φ=0.95)、中持久AR(1)(φ=0.7)及周期协变三场景，各重复200次T=2000；案例为加拉帕戈斯象龟(Chelonoidis niger)个体"Carolina"共19500小时GPS位点导出的步长与转角，3态Gamma/von Mises HMM温度驱动转移概率。

研究结果

1 INTRODUCTION

指出传统协变量HMM解释困难及假设平稳分布的局限，引出需考虑协变量过程动态来获取真实状态占有分布。

2 STATE OCCUPANCY DISTRIBUTION IN COVARIATE-DRIVEN HMMs

定义协变量驱动TPM Γ^(t)=Γ(z_t)由行多分类Logit关联β_(ij)⁰+Σβ_(ij)^pz_t,p给出。明确假设平稳分布ρ(z₀)满足ρ(z₀)=ρ(z₀)Γ(z₀)但与协变量历史无关，而真实Pr(S_t=i|Z_t=z)=E[Pr(S_t=i|Z₁,…,Z_t)|Z_t=z]依赖协变量条件历史，二者仅在协变量极持久时相近。

2.3 Resampling-based methods

详述AR与BB重采样流程：生成长模拟协变量轨迹→逐时刻计算δ^(t)（初始δ⁽¹⁾取均匀或平稳）→将δ^(t)按z分箱求均值得Pr(state i|z)估计。AR法适简单线性依赖；BB法非参保局部相关，季节数据块长匹配周期，复杂趋势先去趋势再BB残差。

2.4 Flexible Dirichlet regression

说明δ^(t)为成分数据(Σδ_i^(t)=1)，拟Dirichlet分布，用GAM框架下单/多平滑项f_i(z)经混合模型表示与约束REML估计，直接由观测δ^(t)-z散点拟合无偏曲线。

3 SIMULATION EXPERIMENTS

三设定结果：高持久AR(1)(φ=0.95)下假设平稳分布近似尚可；中持久AR(1)(φ=0.7)假设平稳分布偏倚达30%，AR与BB重采样及Dirichlet回归均无偏；周期协变下AR误设致偏，BB(L=周期)与Dirichlet回归无偏。Dirichlet回归在协变量极值区方差略大，AR重采样因可生成更多极值故尾区更稳定。表明假设平稳分布偏倚随协变量波动性增大而加剧，所提三法可校正。

4 CASE STUDY

加拉帕戈斯象龟3态Gamma/von Mises HMM(态1休息低步长、态2中步长觅食、态3高步长迁徙)温度协变。温度具日/季周期与正偏。假设平稳分布在高温尾区高估旅行态概率(30℃时48% vs 无偏法31%–32%)。半参数BB(先拟合sin/cos年周期再BB残差块L=24小时)与Dirichlet回归结果与经验δ^(t)吻合无偏，定量差异在极端温度预测具保护生物学意义。

5 DISCUSSION（结论翻译）

在基于协变量驱动HMM分析生态（及其他）时间序列数据时，生物学推断常依赖于隐含的协变量依赖状态占有分布。该量无解析解，迄今常近似为Patterson等(2009)假设平稳分布。本文证明此法尤其当协变量显著波动时可致严重偏倚——Patterson等原文中海表温度高度持久故偏倚可忽略，但非普适。对协变量波动显著情形，研究人员提出三法获改进无偏估计：①AR过程参数化重采样；②BB非参重采样（AR不适时优选）；③基于观测经验状态概率直接Dirichlet回归拟合。较短序列(T≤数千)推荐重采样法（AR为默认，不符则BB）；较长序列(数千以上)经验状态概率信息足，Dirichlet回归输入少且可靠。三法均自然推广至多协变量。正确使用可消除状态占有推断偏倚，提升动物行为-环境关联推理解释力。

—END—

热点排行