基于风险优先级的经验回放技术，用于实现稳定的手持操控

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Sensors》：Risk-Prioritized Experience Replay for Stable In-Hand Manipulation

【字体：大中小】 时间：2026年06月09日 来源：Sensors 3.5

编辑推荐：

　　摘要

摘要

深度强化学习（DRL）在多指灵巧手部操控方面展现了强大的能力，但高维控制和复杂的物体交互使得策略学习变得具有挑战性。然而，许多现有的DRL方法侧重于任务完成和学习效率，而没有明确考虑操控风险，这可能导致过于激进的行为和不稳定的物体处理。本研究提出了一种基于风险优先的重放采样策略——Risk-Prioritized Experience Replay（Risk-PER），该策略结合了从先前转换中得出的任务特定风险评分。该方法根据与操控稳定性相关的三个二进制指标为每个转换分配一个风险评分，从而在允许智能体从风险相关事件中学习的同时，偏向于选择较低风险的经验。Risk-PER与深度确定性策略梯度（DDPG）相结合，并在MuJoCo模拟中针对两个Allegro手部操控任务进行了评估，这些任务涉及一个积木和一个鸡蛋。在所有评估的设置中，Risk-PER相比HER和基于奖励-惩罚的风险规避基线方法，实现了更高的成功率、更低的操控风险以及更稳定的学习行为。这些结果表明，将任务特定的风险意识纳入重放优先级中可以提高灵巧手部操控的学习效率和操控稳定性。

联系信箱：

粤ICP备09063491号

摘要

热点排行