
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于Stackelberg博弈的约束条件下四旋翼无人机分布式最优编队控制研究
【字体: 大 中 小 】 时间:2025年07月28日 来源:Neurocomputing 5.5
编辑推荐:
为解决四旋翼无人机(QUAVs)在时变全状态约束下的分布式最优编队控制问题,研究人员提出了一种结合统一通用屏障函数(UUBF)和Stackelberg博弈框架的创新方法。通过设计时间可变的UUBF处理约束条件,并利用领导者-跟随者博弈模型协调多智能体系统的竞争与合作关系,最终通过强化学习(RL)算法求解耦合Hamilton-Jacobi-Bellman(HJB)方程。该研究为复杂环境下的无人机编队控制提供了兼具理论严谨性和工程实用性的解决方案。
随着无人机在军事侦察、灾害救援等领域的广泛应用,多无人机协同编队控制成为研究热点。然而在实际应用中,无人机常面临狭窄空间穿越等场景下的状态约束问题,传统方法难以同时处理时变约束和优化控制性能。更棘手的是,编队系统中领导者与跟随者之间既存在合作又隐含竞争的关系,现有分布式控制框架往往忽视这种复杂交互。
武汉纺织大学的研究团队在《Neurocomputing》发表的研究中,创新性地将Stackelberg博弈理论与屏障函数技术相结合,提出了针对约束条件下四旋翼无人机编队控制的系统解决方案。研究首先设计了时间可变的统一通用屏障函数(UUBF)来处理时变状态约束,该函数能根据约束边界动态调整,相比传统对称型屏障函数具有更好的普适性。其次引入Stackelberg博弈框架,通过领导者先发布策略、跟随者后优化的两阶段决策过程,更真实地模拟了编队系统中的层级关系。理论层面,研究通过Lyapunov稳定性理论证明了系统稳定性;方法层面,开发了基于强化学习(RL)的在线算法来求解耦合的Hamilton-Jacobi-Bellman(HJB)方程。
关键技术方法包括:1) 构建包含节点集和边集的图论模型描述多无人机通信拓扑;2) 设计具有时间依赖特性的UUBF函数处理状态约束;3) 建立包含一致性误差项和控制策略项的Stackelberg性能指标;4) 采用on-policy(同策略)强化学习算法求解最优控制策略。
系统模型与问题描述
通过有向图理论建立QUAVs通信模型,定义领导者为节点0,跟随者为1到N。系统状态方程考虑六自由度动力学模型,状态约束函数采用时变形式,需同时满足位置、姿态等多维约束条件。
统一通用屏障函数设计
提出的UUBF具有三重特性:当状态接近约束边界时函数值趋近无穷;状态位于约束范围内时函数光滑有界;对无约束状态可通过调整参数实现统一处理。数学证明显示该函数能严格保证状态不违反时变约束。
Stackelberg博弈框架构建
领导者性能指标包含对跟随者策略的预测,跟随者指标则考虑对领导者策略的响应。通过耦合HJB方程刻画博弈均衡条件,相比传统合作控制模型,该框架更符合实际系统中存在的层级竞争关系。
强化学习算法实现
设计的on-policy RL算法通过在线交互数据逼近价值函数,避免了直接求解HJB方程的困难。仿真中设置包含4架QUAVs的编队系统,初始状态均满足约束条件,参考轨迹设为螺旋上升路径。
仿真验证
实验数据显示,在时变位置约束(通道宽度周期性变化)和姿态约束条件下,所有无人机均能保持预设菱形编队队形,状态变量始终位于约束边界内。与对称型屏障函数方法相比,UUBF使控制输入波动减少23%,能量消耗降低15%。
该研究的重要意义在于:理论层面,首次将Stackelberg博弈引入约束条件下的多无人机控制,为处理合作-竞争混合型系统提供了新范式;方法层面,设计的UUBF突破了传统屏障函数对时变约束处理的局限性;应用层面,RL算法的在线学习特性使其适用于动态变化的环境。研究人员指出,未来可进一步研究通信延迟和部分可观条件下的分布式控制问题,以提升方法在更复杂场景中的鲁棒性。
生物通微信公众号
知名企业招聘