面向社交机器人的目标导向自主决策方法:基于协作交互式逆强化学习的创新研究

【字体: 时间:2025年08月01日 来源:Scientific Reports 3.9

编辑推荐:

  本研究针对社交机器人在未知行人目标信息下的导航难题,提出了一种基于协作交互式逆强化学习(CIIRL)的目标导向自主决策(GO-ADM)框架。通过定义目标导向专家示范(GOED)并构建训练环境(TE),研究人员开发了融合社会安全距离约束的奖励函数,使机器人在不依赖轨迹预测的情况下实现纵向/横向主导导航任务。实验显示该方法的平均目标偏差小于0.23m,在0.5m噪声干扰下成功率仍超75%,为社交机器人融入人类环境提供了安全高效的解决方案。

  

在人工智能技术飞速发展的今天,社交机器人正逐步融入人类生活空间,与行人共享环境并提供服务。然而,这些钢铁伙伴面临着一个尴尬困境:如何在保证行人安全舒适的前提下,高效完成既定导航任务?传统方法要么像"盲人摸象"般依赖经验定义的奖励函数,要么如同"刻舟求剑"试图通过历史轨迹预测未来路径,都难以兼顾安全性与目标达成率。更棘手的是,行人运动的随机性和文化差异使得规则化建模举步维艰,而长距离轨迹预测的误差会像"多米诺骨牌"般不断累积。

长春理工大学机电工程学院的研究团队在《Scientific Reports》发表的这项研究,犹如为社交机器人装上了"人类行为解码器"。他们创造性地将行人终点位置假设为目标,通过协作交互式逆强化学习(Collaborative Interactive Inverse Reinforcement Learning, CIIRL)框架,从专家示范中挖掘出潜藏的行人运动规律。这套名为GO-ADM的目标导向自主决策系统,不仅省去了繁琐的轨迹预测步骤,还通过社会安全距离惩罚函数为"人机共舞"划定了舒适区。

研究团队采用了三项核心技术:首先构建包含15个动态行人的训练环境(TE),模拟高密度社交场景;其次开发最大熵深度逆强化学习(Maximum Entropy Deep Inverse Reinforcement Learning, MEDIRL)算法,从专家示范中提取奖励函数;最后结合优势演员-评论家(Advantage Actor-Critic, A2C)算法进行策略优化。特别值得注意的是,团队对ETH数据集进行创新性改造,在状态空间中新增目标相对距离(ΔXgoal, ΔYgoal)等关键参数,形成了独具特色的目标导向专家示范(GOED)。

【目标导向专家示范的构建】
研究团队从ETH的seq-eth数据集中提取行人运动信息,创新性地将每个行人轮流设为"智能体",计算其包含目标位置、动态障碍物(其他行人)和静态障碍物(墙壁)的完整环境状态。如图3所示,通过将行人纵向和横向速度(Vx, Vy)转化为连续概率分布,建立了符合人类行为模式的专家策略库。这种数据处理方式如同为机器人编写了"行人行为语法手册"。

【协作交互式学习框架】
如图4所示,CIIRL框架采用双阶段协同优化:先通过A2C算法让机器人与随机行人环境交互获得先验策略,再与GOED交互更新奖励函数。这种设计巧妙地解决了传统逆强化学习中的奖励模糊问题。研究数据显示,经过480轮训练后,奖励损失从1降至0.05左右(图5a),而目标距离(D2D)指标持续改善(图5b),证明该框架能有效引导机器人向目标靠近。

【自主决策性能验证】
在训练环境测试中,机器人轨迹近似两点间最优路径(图8a),且能通过速度调整保持舒适社交距离(图10)。引人注目的是,在横向主导导航任务中,虽然平均偏差达0.23m,但相对总距离的偏差率仅1.1%(图17)。更令人印象深刻的是,在0.5m最大噪声干扰下,系统成功率仍保持在75%以上(表3),展现出极强的抗干扰能力。

这项研究为社交机器人导航提供了范式转变:从轨迹预测转向状态决策。通过将目标信息融入逆强化学习框架,GO-ADM系统在保持行人舒适度的同时,使机器人像"老练的都市行者"般在人群中游刃有余。尽管在横向运动场景中表现稍逊,但其在纵向导航任务中低于0.13m的平均偏差,以及对比LM-SARL等基线方法91%的成功率(表2),都彰显了方法的优越性。未来通过增加横向运动训练数据,这套系统有望成为社交机器人融入人类社会的"通行证",为智慧城市、医疗陪护等场景提供关键技术支撑。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号