基于模型的情境强化学习在机器人协同操作中的高效策略泛化研究

【字体: 时间:2025年05月12日 来源:Engineering Applications of Artificial Intelligence 7.5

编辑推荐:

  本研究针对机器人协同操作中控制器因环境变化需重复学习的难题,创新性提出模型基情境强化学习(MCRL)框架,通过参数化解耦控制策略与高斯过程前向模型,实现跨情境高效策略泛化。实验表明该方法在仿真与实体双机械臂平台显著提升操作质量与资源利用率,为智能制造提供新范式。

  

在制造业智能化转型浪潮中,多机器人协同操作已成为突破复杂装配任务瓶颈的关键技术。然而传统单机器人系统面对多样化工件和轨迹时,其固定参数的阻抗控制或混合力/位控制框架存在显著局限:需精确负载参数且缺乏泛化能力(Zhang et al., 2018)。尽管自适应控制(Gueaieb et al., 2003)与无模型强化学习(Buchli et al., 2011)部分缓解了该问题,但前者难以应对所有环境不确定性,后者则需数千次危险试错(Chatzilygeroudis et al., 2019)。这种困境严重制约了智能制造系统在动态工业场景中的部署效率。

针对这一挑战,由Wenrui Wang和Qirong Tang领衔的研究团队在《Engineering Applications of Artificial Intelligence》发表创新成果。研究团队创造性地将模型基情境强化学习(Model-Based Contextual Reinforcement Learning, MCRL)引入多机器人协同操作领域,通过三级技术突破实现跨情境策略泛化:首先设计基于投影逆动力学(projected inverse dynamics)的参数化解耦控制器,将操作空间分解为约束/非约束子空间分别优化;其次构建高斯过程(Gaussian Process, GP)前向模型,通过概率推理生成虚拟实验数据;最终建立分层策略架构,使高层策略能根据工件质量等情境变量(context)动态调整底层控制器参数。这种"模型指导+情境感知"的双重创新,使系统仅需少量真实交互即可获得安全可靠的操作策略。

关键技术方面,研究团队采用:1) 投影逆动力学实现操作空间解耦;2) 局部加权贝叶斯回归(LWBR)构建概率前向模型;3) 协方差矩阵自适应(CREPS-CMA)优化高层策略;4) 多机器人仿真系统与实体双机械臂平台验证。

在"参数化解耦底层策略"部分,研究通过数学推导证明投影逆动力学可将末端执行器运动分解为约束子空间(满足接触力要求)和非约束子空间(实现目标轨迹),其参数化形式显著优于传统混合控制框架。仿真显示该策略在球体搬运任务中接触力误差降低62%。

"模型基情境强化学习"章节详细阐述了GP模型如何通过贝叶斯推断预测系统动态,其构建的虚拟实验环境使策略更新次数减少83%。与无模型CREPS-CMA相比,MCRL在10kg球体搬运任务中策略收敛速度提升7倍,且无一次约束违反记录。

通过"仿真与实验"验证,该框架在3机器人仿真系统和2实体机械臂平台均展现卓越性能。面对0.5-15kg不同质量球体,MCRL策略成功率达98%,而传统CRL方法最高仅76%。特别在突发外力干扰场景下,其接触力稳定性比阻抗控制提高41%。

研究结论指出,MCRL框架通过三大创新点推动领域发展:1) 首创将投影逆动力学控制融入CRL架构;2) 开发数据高效的GP前向模型生成方法;3) 实现跨5个数量级负载的零样本泛化能力。这不仅解决了制造业中机器人系统"一任务一调试"的痛点,其构建的元启发式(metaheuristic)解决方案更为医疗机器人、太空装配等高风险场景提供技术范式。正如文中所强调,该研究在"中国国家自然科学基金(52305032)"等支持下,成功将理论创新转化为工业实用技术,标志着人工智能在高端装备领域的又一重要突破。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号