基于分层安全强化学习的四旋翼无人机人机交互控制框架:从人类演示中学习意图并保证避障安全

《Environment International》:Ambient temperature and non-accidental mortality: A nationwide space–time case-crossover study within the 100 million Brazilian Cohort

【字体: 时间:2025年11月05日 来源:Environment International 9.7

编辑推荐:

  为解决复杂环境中无人机自主控制难以融合人类意图并保证安全的问题,研究人员开展了基于分层安全强化学习(SRL)的无人机控制研究。该研究提出高层动态运动基元(DMP)学习飞行员演示轨迹并重新规划,底层采用基于状态跟随(StaF)核神经网络的SRL进行安全最优跟踪控制。硬件实验表明,该框架能成功跟踪复杂人为轨迹(路径长度相对值超过96%)并保证避障,为复杂环境下可靠的人机交互提供了解决方案。

  
在当今科技飞速发展的时代,无人飞行器(UAV, Unmanned Aerial Vehicle)已成为搜索救援、巡逻监控、环境监测等领域的得力助手。然而,让这些“空中精灵”在复杂多变的环境中实现完全自主、安全可靠的飞行,仍然是一个巨大的挑战。环境的不可预测性使得纯粹的自动化控制算法往往力不从心。相比之下,人类飞行员凭借其丰富的经验和敏锐的判断力,能够灵活应对各种突发状况。因此,如何将人类的“意图”巧妙地融入无人机的自主控制系统中,让人机的优势互补,成为了研究人员关注的焦点。但问题在于,人类的意图难以直接测量和预测,这给无人机准确跟踪人类指令带来了困难。同时,确保无人机在跟踪轨迹时能主动、安全地避开环境中的障碍物,是另一个亟待解决的关键安全问题。尽管存在诸如动态运动基元(DMP, Dynamic Movement Primitives)用于学习人类运动,以及各种最优控制和安全控制方法,但一个能够将人类意图学习与具有形式化安全保证的自主控制无缝集成的一体化框架,仍然是该领域的一个空白。正是为了填补这一空白,发表在《Environment International》上的这项研究,提出了一种新颖的分层安全强化学习控制框架,旨在让四旋翼无人机不仅能“理解”飞行员的意图,还能在复杂环境中“安全”地执行任务。
本研究主要运用了几个关键的技术方法:1)分层控制架构:模仿生物启发的人机交互系统,分为高层运动规划和底层跟踪控制。2)动态运动基元(DMP):用于从人类飞行员的演示轨迹中学习并重新规划出更高效的参考轨迹。3)安全强化学习(SRL, Safe Reinforcement Learning):底层控制器采用结合了障碍函数的强化学习方法来设计最优跟踪控制器,同时保证避障安全。4)状态跟随(StaF, State-following)核神经网络:用于局部逼近值函数,以解决“维度灾难”问题,实现实时控制。5)李雅普诺夫(Lyapunov)稳定性理论:用于形式化证明控制系统的稳定性。实验在室内实验室环境下使用真实四旋翼无人机硬件和静态障碍物进行验证。
Preliminaries
本节介绍了研究的基础模型。首先给出了四旋翼无人机的动力学模型,为控制器设计提供了数学基础。接着,对环境中的障碍物进行了建模,并引入了用于保证安全的障碍函数(Barrier Function)概念,为后续的安全控制策略设计做准备。
Hierarchical pilot-quadcopter structure
研究人员设计了一个双层结构框架。高层是人类意图运动规划器,其核心任务是利用动态运动基元(DMP)技术。DMP通过一组高斯函数来近似人类演示轨迹中的非线性部分,从而能够学习飞行员的意图,并重新规划出一条与之相似但更具效率的轨迹,作为底层控制的参考。底层是安全最优跟踪控制器,它接收高层生成的参考轨迹,并采用安全强化学习(SRL)方法。该控制器需要解决两个主要问题:一是精确跟踪参考轨迹,二是主动避开障碍物。通过将障碍函数整合到强化学习的代价函数中,实现了安全约束下的最优控制。整个系统的架构清晰地将“学什么”(高层)和“怎么安全地做”(底层)分离开来,各司其职。
Low-level adaptive safe tracking control design
为了实现底层控制,本研究采用了基于状态跟随(StaF)核的单评论员神经网络(NN)来逼近最优值函数,并直接计算出控制输入。这种方法相比执行者-评论员(actor-critic)等双网络结构,计算效率更高,更适合四旋翼无人机的实时控制需求。通过构建障碍函数并将其与强化学习的代价函数相结合,设计出了能够保证安全的优化控制器。最重要的是,研究人员利用李雅普诺夫(Lyapunov)稳定性理论,对所提出的控制系统的稳定性进行了形式化的证明,从理论上确保了控制器的可靠性和安全性。
Hardware experiments
为验证框架的有效性,研究团队进行了两项硬件实验。实验一主要测试底层自适应安全跟踪控制器的性能。让无人机跟踪一个标准的圆形轨迹,并在路径上设置一个静态障碍物。结果证明,该控制器能够有效跟踪轨迹并成功避开障碍物。实验二则测试完整的层次框架。首先由人类飞行员演示一个复杂的“之”字形机动轨迹,高层DMP学习并重新规划此轨迹。然后,无人机在包含多个障碍物的环境中跟踪这条新规划出的轨迹。实验结果表明,该框架能够成功学习并跟踪复杂的人为意图轨迹(相对路径长度超过96%),同时在飞行过程中保证了碰撞规避,充分验证了其在实际应用中的有效性和鲁棒性。
Conclusion
本研究成功提出并实验验证了一个用于四旋翼无人机控制的分层安全强化学习(SRL)框架。该框架的核心价值在于,它通过高层的动态运动基元(DMP)有效地学习和融合了人类飞行员的操作意图,生成合理的参考轨迹;同时,通过底层的安全强化学习(SRL)控制器,在跟踪轨迹的同时严格保证了避障安全,并提供了稳定性的形式化证明。硬件实验从不同角度证实了该框架在真实场景下的可行性和优越性。这项工作的更广泛意义在于,它为构建更协同的人机系统迈出了重要一步,使得机器能够安全、高效地根据学习到的人类意图进行行动。这种分层设计蓝图未来可以扩展到外骨骼控制、机械臂操作、自动驾驶车辆等其他需要人机紧密协作的领域,具有广阔的应用前景。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号