
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于强化学习的无人机可变导纳控制:跨平台交互性能优化与稳定性研究
【字体: 大 中 小 】 时间:2025年06月19日 来源:Neurocomputing 5.5
编辑推荐:
为解决无人机(UAV)在复杂环境中交互控制稳定性差、参数调优困难等问题,北京理工大学团队提出基于强化学习(RL)的可变导纳控制模型。该研究通过RL策略动态调整导纳参数(刚度/阻尼),实现能量消耗、轨迹跟踪与稳定性的多目标优化,在F450/ZD550无人机及SmQ多旋翼平台上验证了方法的跨平台适应性,为空中操控任务提供通用解决方案。
在无人机(UAV)日益普及的今天,如何让这些"空中机器人"像人类手臂一样灵活地与周围环境互动,成为科研人员亟待解决的难题。传统无人机在执行装配、空中抓取、阀门操作等接触式任务时,常因环境不确定性导致控制失稳或结构损坏。更棘手的是,不同类型的无人机(如欠驱动的四旋翼与全驱动的SmQ平台)需要差异化的交互参数,而现有控制方法往往顾此失彼——要么牺牲响应速度换取稳定性,要么因参数固定无法适应多变场景。
北京理工大学的研究团队在《Neurocomputing》发表的研究中,创新性地将强化学习(RL)引入无人机交互控制领域。该团队开发的可变导纳控制模型,通过神经网络动态生成刚度(stiffness)和阻尼(damping)参数,在保证系统稳定性的前提下,实现了能量消耗、轨迹跟踪精度与抗干扰能力的多目标优化。研究特别验证了该方法在单无人机(F450/ZD550)和新型SmQ多旋翼平台上的跨平台适用性,其中SmQ平台由通过被动球关节连接的多个无人机组成,可显著提升负载能力与交互维度。
关键技术包括:1) 基于近端策略优化(PPO)算法的RL训练框架;2) 融合能量消耗、状态跟踪误差和Lyapunov稳定性的多维度评估体系;3) 针对全驱动SmQ平台设计的高层训练策略,通过外力约束直接优化能量消耗;4) 在仿真和真实场景中分别验证圆形轨迹跟踪、斜面滑动等6D交互任务。
【Single UAV dynamic model】
建立X型四旋翼动力学模型,采用牛顿-欧拉公式推导6自由度运动方程,包含质量m、惯性矩Ib
、角速度ωb
b
等关键参数,为RL训练提供物理基础。
【Approach】
提出RL策略动态调节导纳参数:高刚度值抵抗扰动但能耗大,低刚度值增强柔顺性但降低精度。通过奖励函数平衡跟踪误差ep
、能量消耗Pu
和Lyapunov稳定性条件,实现参数自适应优化。
【Simulation and results】
仿真显示新方法在圆形轨迹跟踪任务中,位置误差比传统方法降低62.7%,能耗减少33.2%。不同低层控制参数下的测试验证了策略鲁棒性。
【Experimental setup and result】
实物测试中,F450和ZD550平台在牵引力作用下的位移响应误差分别控制在8.3%和6.7%以内,证实方法对异构平台的适应性。
【Conclusions】
该研究首次将RL-based可变参数控制应用于多类型无人机平台,突破传统方法在通用性方面的局限。特别在SmQ平台斜面滑动任务中,通过高层训练策略实现外力约束下的能耗最优,为复杂空中操控任务提供新范式。论文通过理论证明和实验验证,确立了该方法在稳定性、跨平台迁移性和任务适应性方面的三重优势,为未来无人机在救援、检测等动态场景的应用奠定基础。
生物通微信公众号
知名企业招聘