面向目标的相关观测远程跟踪:基于拉动通信的POMDP优化方法

《IEEE Communications Letters》:Goal-Oriented Remote Tracking Through Correlated Observations in Pull-Based Communications

【字体: 时间:2025年12月15日 来源:IEEE Communications Letters 4.4

编辑推荐:

  本刊推荐:为解决物联网和信息物理系统中实时远程跟踪的效能问题,研究人员开展了基于拉动通信、考虑观测相关性的目标导向通信研究。通过建立部分可观测马尔可夫决策过程(POMDP)模型,并将其转化为有限状态MDP问题,利用相对值迭代算法(RVIA)得出了最优指令策略。该策略显著降低了加权失真和传输成本,为智能工厂、车联网等应用提供了更高效的通信方案。

  
在智能工厂、智慧城市和自动驾驶等物联网(IoT)和信息物理系统快速发展的今天,实时准确地远程跟踪物理过程的状态变得至关重要。传统的状态更新系统往往只关注信息的"新鲜度",即年龄(AoI),但实际应用中,不同的状态估计错误可能带来完全不同的后果。例如,在智能电网故障检测中,漏报故障可能导致大面积停电,而误报仅造成不必要的检查。这种对信息"价值"的差异化需求,催生了目标导向通信(Goal-Oriented Communications)的研究。
然而,现有的研究大多假设传感器对目标的观测是独立的。在现实场景中,如车联网中的车辆间通信,或智能工厂中机器人共享工作区域,一个传感器的观测数据很可能同时包含自身目标和邻近目标的状态信息,即存在观测相关性。如何利用这种相关性,在资源受限的无线环境下,设计出更智能的调度策略,以最小化跟踪误差(失真)和通信成本,是一个尚未被充分探索的挑战。此外,监控中心通常无法直接获知信息源的实时真实状态,只能基于收到的历史数据包进行估计,这构成了一个部分可观测的决策环境。
为了解决上述问题,Abolfazl Zakeri、Mohammad Moltafet和Marian Codreanu在《IEEE Communications Letters》上发表了他们的研究。他们研究了一个包含两个独立二元对称马尔可夫源(Binary Symmetric Markov Chain)、两个传感器和一个远程监控器的系统。监控器采用拉动式(Pull-Based)通信模式,即由监控器主动请求(命令)传感器发送状态更新。研究的核心创新点在于考虑了传感器观测的相关性:每个传感器在报告自身源状态时,有一定概率(由相关概率矩阵P定义)同时报告另一个源的状态。研究的目的是为监控器找到最优的指令策略,以最小化长期平均的加权失真和(Weighted Sum Distortion)与传输成本。
为了开展研究,作者主要应用了以下几个关键技术方法:首先,将问题建模为一个部分可观测马尔可夫决策过程(POMDP),以处理监控器无法完全观测源状态的问题。接着,通过将系统的信息状态转化为关于源状态的信念(Belief),将POMDP问题转化为信念马尔可夫决策过程(Belief-MDP)。然后,作者巧妙地利用信念值与信息年龄(Age of Information, AoI)之间的函数关系,通过截断年龄上界(设定为N=30),将原本无限的信念状态空间转化为有限状态空间,从而将问题转化为一个有限状态MDP。最后,利用相对值迭代算法(Relative Value Iteration Algorithm, RVIA)对这一有限状态MDP进行求解,获得最优策略。作为对比,研究还采用了深度Q网络(Deep Q-Network, DQN)方法求解同一信念MDP问题。
系统模型与问题表述
研究人员考虑了一个离散时隙系统。每个信息源i(i=1,2)的状态Xi(t) ∈ {0,1}遵循一个自转移概率为pi的二元对称马尔可夫过程。每个传感器i在观测自身源状态(ρii=1)的同时,以概率ρij观测到源j的状态。监控器的动作a(t) ∈ {0,1,2},分别代表不发送命令、命令传感器1、命令传感器2。信道传输成功率记为qi。监控器基于收到的最新样本及其年龄,采用最小平均失真估计来生成对每个源状态的估计X?i(t)。失真度di(t)被定义为一个有界的通用函数fi(Xi(t), X?i(t)),可以灵活表示如实时误差或其他不对称错误代价。优化目标是最小化长期平均的加权失真和与传输成本。
问题求解方法
由于监控器无法直接观测源的真实状态,该问题被建模为一个POMDP。其状态s(t)包含源的真实状态、监控器持有的最新样本值及其年龄。观测o(t)则是监控器实际能看到的部分,即最新样本值和年龄。通过引入信念状态bi(t) = Pr{Xi(t)=1 | I(t)}(其中I(t)为信息历史),POMDP被转化为信念MDP。一个关键的发现是,信念bi(t)可以精确地表示为最新样本值X?i(t)和其年龄δi(t)的函数:bi(t) = 0.5(1 ± (2pi-1)δi(t)),符号取决于X?i(t)是1还是0。这使得信念状态可以用有限个离散状态(样本值组合和截断的年龄)来表示,从而将问题转化为可解的有限状态MDP。研究者证明了该MDP具有单链(Unichain)和非周期性(Aperiodic)性质,从而保证了RVIA能够收敛到最优平均代价和最优平稳确定性策略。
数值结果分析
仿真结果验证了所提最优策略的有效性。与最大年龄优先(Max-Age-First)策略、年龄最优(Age-Optimal)策略以及DQN策略相比,RVIA求解得到的最优策略在几乎所有测试场景下都取得了最低的平均成本。
图2显示了传输成本系数α对平均总成本的影响。随着α增大(传输代价变高),所提策略的优势更加明显,因为它能更智能地权衡失真和传输成本,而年龄基准策略对此不敏感。当α足够大时,最优策略倾向于保持空闲,避免不必要的传输。
图3分析了观测相关性对性能的影响。无论是对于实时误差失真(图3a)还是自定义的非对称失真矩阵(图3b),提高相关性概率(ρ1221)都能有效降低平均成本。这是因为更高的相关性意味着一次成功的状态更新有更大可能同时更新两个源的状态,从而更有效地纠正监控器的估计误差。年龄基准策略同样无法利用这一优势。
图4展示了源的自转移概率pi对成本的影响。成本曲线关于p1=p2=0.5对称,在此处成本最大。这是因为当pi=0.5时,源状态变化最随机(熵最大),最难跟踪。所提策略通过自适应估计能有效应对慢变(pi大)和快变(pi小)源,而年龄基准策略在pi=0.5时性能差距最大。DQN策略的性能与最优RVIA策略非常接近。
图5表明,提高信道可靠性(q1=q2)能降低所有策略的成本,因为成功传输的概率增加。所提策略和DQN策略始终优于年龄基准策略,且性能差距随可靠性变化保持稳定。
研究结论与意义
本研究成功地为具有相关观测的拉动式目标导向通信系统设计并求解了最优指令策略。通过将复杂的POMDP问题巧妙地转化为有限状态MDP,并利用RVIA求解,所得到的策略能够智能地调度传感器更新,充分权衡跟踪精度和通信开销。仿真结果一致表明,该策略显著优于传统的基于年龄的调度策略,并且能够有效利用观测相关性来提升系统性能。这项工作将相关性因素引入目标导向通信的调度设计,为物联网和信息物理系统中更高效、更智能的状态更新提供了重要的理论依据和算法工具。未来研究可进一步探索信息源动态过程本身存在相关性等更复杂的场景。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号