ISC-POMDPs:具有初始状态依赖成本的部分观测马尔可夫决策过程

《IEEE Control Systems Letters》:ISC-POMDPs: Partially Observed Markov Decision Processes With Initial-State Dependent Costs

【字体: 时间:2025年11月13日 来源:IEEE Control Systems Letters 2

编辑推荐:

  部分观测马尔可夫决策过程(POMDP)中引入了初始状态成本(ISC-POMDPs),通过递归贝叶斯固定点平滑器估计未知初始状态,并将其转化为信念依赖成本问题,在机器人导航和主动感知等场景中验证了控制策略的有效性。

  

摘要:

我们提出了一类部分观测的马尔可夫决策过程(POMDP),其成本取决于初始状态的价值以及与该状态相关的(未来)不确定性。这些初始状态成本POMDP(ISC-POMDP)能够针对事先未知的初始状态来指定目标,这在机器人导航、受控感知和主动感知等应用中非常有用,这些应用可能需要控制系统重新访问初始状态、保持在初始状态附近或主动推断初始状态。通过开发一种类似于标准递归贝叶斯滤波器的递归贝叶斯固定点平滑器来估计初始状态,我们证明了ISC-POMDP可以被视为具有(可能)依赖于信念的成本的POMDP。我们在仿真中展示了ISC-POMDP的实用性,包括它们选择控制策略以解决关于(过去)初始状态的(未来)不确定性的能力。

引言

动态系统的初始状态通常具有重要的实际意义[1]、[2]、[3]、[4]。例如,车辆的初始位置通常对应于其所有者的居住地[1];机器人的初始姿态有助于实现安全或可恢复的导航、路径规划和地图构建[2]、[3];而代理团队的初始配置有助于识别它们的角色或意图[4]。这种重要性催生了与初始状态直接相关的部分观测随机最优控制问题,例如在网络控制系统中控制系统以阻碍对其初始状态的推断从而保护隐私[1],或者在目标跟踪和机器人技术中控制系统以改善对其初始状态的推断从而实现主动感知[2]、[3]、[4]。然而,目前还缺乏解决初始状态目标问题的一般框架。因此,我们提出并研究了初始状态成本部分观测马尔可夫决策过程(ISC-POMDP)。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号