基于深度强化学习的仿蝗虫跳跃机器人多模态协同部署算法研究

【字体: 时间:2025年07月26日 来源:Expert Systems with Applications 7.5

编辑推荐:

  针对三维复杂地形下多机器人协同部署难题,中科院团队创新研发具备爬行/跳跃多模态运动的仿蝗虫机器人(JumpBot),提出融合LSTM(长短期记忆网络)的深度强化学习算法(MCA),通过集中训练分散执行(CTDE)框架实现81.2±2.39%任务成功率,路径成本降低22.9%,首次实现真实场景跳跃机器人集群部署,为陆地机器人智能决策提供新范式。

  

在环境监测、灾害救援等应用场景中,多机器人系统面临三维复杂地形下的部署效率瓶颈。传统轮式机器人难以应对崎岖地形,而单一运动模式的跳跃机器人又存在连续机动性不足的缺陷。更棘手的是,现有深度强化学习(Deep Reinforcement Learning, DRL)算法多局限于二维仿真环境,无法适应真实三维场景的动态复杂性。如何设计兼具多模态运动能力的机器人平台,并开发高效的协同控制算法,成为提升陆地机器人环境适应性的关键科学问题。

中国科学院的研究团队独辟蹊径,从蝗虫卓越的跳跃能力中获得灵感,研制出具有爬行、转向和跳跃多模态运动能力的仿生机器人JumpBot。该机器人采用弹簧阻尼轮腿结构确保落地稳定性,其创新性在于将生物启发的机械设计与智能算法深度融合。为解决多机器人协同难题,团队提出基于集中训练分散执行(Centralized Training with Decentralized Execution, CTDE)框架的多机器人协调算法(Multi-robot Coordination Algorithm, MCA),通过引入长短期记忆(Long Short-Term Memory, LSTM)网络增强策略网络对关键特征的提取能力,使机器人能根据地形特征自主切换运动模式。相关成果发表在《Expert Systems with Applications》期刊,为陆地机器人自主决策提供了全新解决方案。

研究团队采用三大关键技术:1) 基于Dec-POMDP(分散式部分可观测马尔可夫决策过程)建立多机器人部署的数学模型;2) 开发融合LSTM的Actor-Critic网络架构,利用全局状态信息进行集中式策略优化;3) 构建包含不同规模障碍物的三维仿真平台,采用MADDPG(多智能体深度确定性策略梯度)等基准算法进行对比验证。

【Modeling】部分建立了JumpBot的运动学模型,其轮腿机构通过弹簧预压缩实现0.3m跳跃高度,爬行速度达0.15m/s。机器人状态空间包含位置、姿态和运动模式等14维参数,动作空间定义为离散的7种运动指令组合。

【Methodology】提出的MCA算法创新性地将LSTM层嵌入策略网络,使机器人能记忆历史观测序列。训练阶段采用CTDE范式,中央 critic 网络接收所有机器人的全局状态(st∈RN×14),而执行时各机器人仅依赖局部观测(oti)独立决策。奖励函数设计兼顾路径效率(rdistance=-0.1dt)和避障安全(rcollision=-10)。

【Simulation and experiments】显示,在12m×12m含随机障碍的仿真场景中,3-12台JumpBot的协同部署成功率可达81.2±2.39%,显著优于MAPPO(多智能体近端策略优化)等基准算法。多模态运动使平均路径成本降低22.9%,跳跃动作占比随障碍密度增加而提升至63.7%。

【Discussion】指出当前系统在超过12台机器人时性能下降,主要受限于局部观测的信息瓶颈。团队建议未来结合Transformer架构增强长程依赖建模能力,并通过金属3D打印减轻机器人重量以提升连续跳跃能力。

这项研究首次实现了真实环境下跳跃机器人集群的自主部署,其创新价值体现在三方面:1) 通过生物力学设计与DRL算法的交叉融合,突破传统机器人单一运动模式的局限;2) 验证了LSTM在复杂地形路径规划中的时序建模优势;3) 建立的CTDE框架为多机器人系统从仿真到实景的迁移学习提供了可复用的技术路线。该成果不仅推动了仿生机器人领域的发展,也为灾害救援等应急场景中的快速部署提供了新的技术储备。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号