
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于深度强化学习的四旋翼无人机抗风导航神经控制器评估与优化研究
【字体: 大 中 小 】 时间:2025年09月05日 来源:Engineering Applications of Artificial Intelligence 8
编辑推荐:
本研究针对传统控制方法在复杂风场环境下无人机导航的局限性,创新性地采用深度强化学习(DRL)框架,通过风场随机化、多目标训练和增强状态表示等策略,在AirSim仿真平台验证了DRL控制器在菱形、8字形等四种轨迹下的抗风性能。结果显示,结合严格航点约束和风场信息的PPO算法成功率最高达100%,比传统方法提升80%以上,为自主飞行系统在动态环境中的可靠部署提供了新范式。
在无人机(UAV)应用日益广泛的今天,强风环境下的精确导航仍是重大挑战。传统PID(比例-积分-微分)和LQR(线性二次调节器)等线性控制器难以应对风切变带来的非线性干扰,导致航点跟踪偏差和能量损耗。Alain Andres团队在《Engineering Applications of Artificial Intelligence》发表的研究,首次系统评估了深度强化学习(DRL)控制器在动态风场中的适应性,为破解这一难题提供了创新方案。
研究采用近端策略优化(PPO)算法,在AirSim高保真仿真平台构建了包含姿态角(θ)、角速度(ω)等核心状态变量的马尔可夫决策过程(MDP)。通过设计密集奖励函数(如成功到达奖励+10,碰撞惩罚-100),引导无人机在最大风速10m/s的随机风场中学习最优策略。关键技术包括:1) 风场域随机化训练(0-10m/s可变风速);2) 严格航点约束(δtrain=0.1m);3) SHAP(沙普利加性解释)可解释性分析;4) 多轨迹验证(圆形/锯齿形等4类路径)。
风场训练策略的权衡效应
实验表明,风场随机化虽提升抗风性(成功率98%),但在无风环境步骤数增加23%。而训练时引入航点相对位置(Δptn+1)等状态信息,可使无风场景效率提升12%。最具突破性的是δtrain=0.1m的严格约束训练,在保持100%成功率的同时,步数比基线减少14%,验证了"严训宽用"策略的有效性。
状态表征的优化规律
SHAP分析揭示:航点相对位置(Δpt)始终是决策首要特征(重要性权重35%),而加入风速信息(wrel)后,姿态角依赖度降低60%。这表明显式风场感知能优化控制结构,这与传统依赖姿态补偿的思路形成鲜明对比。
与传统方法的性能对比
在10m/s风场中,DRL的航点成功率(SR-W)达95%,远超MoveOnPath方法的20%。特别在8字形轨迹测试中,传统方法偏差达1.2m,而DRL能稳定保持δ<0.5m约束,证明其抗干扰优势。
这项研究为无人机抗风控制提供了三大范式转变:1) 证明DRL在复杂动力学中的优越性;2) 建立状态表示与鲁棒性的量化关系;3) 开创了基于SHAP的无人机决策可解释性框架。未来工作可向视觉导航和硬件在环(HIL)测试延伸,推动算法向现实场景落地。这些发现不仅适用于巡检、物流等民用领域,对极端环境下的搜救任务更具战略价值。
生物通微信公众号
知名企业招聘