基于农业多机协同路径规划难题的强化学习优化方法研究：ASS-DQN算法设计及应用

《Smart Agricultural Technology》：ASS-DQN: A Deep Reinforcement Learning Approach for Path Planning in Multi-Machine Cooperative Operations

【字体：大中小】 时间：2026年02月17日 来源：Smart Agricultural Technology 5.7

编辑推荐：

　　针对多机协同农业作业中传统DQL面临的Q值高估、样本冗余及探索效率低下等问题，作者团队提出了名为ASS-DQN的改进型深度强化学习算法。该算法融合了AltMaxQ目标策略、SMU经验选择与SSG探索机制三大核心优化技术，旨在解决动态农田环境下异构农机任务分配与路径规划的关键难题。实验结果表明，ASS-DQN在无故障和故障场景下的作业时间、能耗及系统延迟等关键指标上均显著优于对比算法，为提升智慧农业的协同作业效率与资源利用率提供了有效的解决方案。

在广袤的农田上，棉花收获等大型农业作业早已告别了“单打独斗”的时代，迈入了多台农机协同作业的新阶段。想象一下，收割机、运输车、叉车等多种类型的机器需要在复杂、非结构化的田地里协同工作，既要高效地完成各自的收割、运输任务，又要避免相互“撞车”，还要应对突如其来的机器故障或路径堵塞。这就像一个高度动态的“田间交响乐”，对指挥调度系统提出了极高的要求。然而，传统的调度方法，如贪婪算法、蚁群优化算法或遗传算法，在面对这种高度动态、充满不确定性的农田环境时，往往显得力不从心。它们通常依赖于静态模型和预设规则，难以适应任务状态的实时变化、设备间的强耦合关系以及突发故障带来的连锁反应。近年来，深度强化学习在机器人控制、自动驾驶等领域大放异彩，但其在农业多机协同调度中的应用仍处于探索阶段，面临着Q值高估、训练样本利用效率低、探索策略易陷局部最优等挑战。

为了解决上述难题，石河子大学机电工程学院的科研团队在《Smart Agricultural Technology》期刊上发表了一项创新研究。他们聚焦于棉花收获这一代表性场景，提出了一种名为ASS-DQN（Alternating Maximum Q Deep Reinforcement Learning Algorithm）的改进型深度强化学习算法，旨在实现异构多机（如采棉机、运棉车、叉车）在动态、耦合环境下的高效协同任务分配与路径规划。该研究首先系统分析了农业多机协同作业相较于工业调度的特殊性，如地形异质性高、机器功能耦合性强、作业时效性要求严格等，从而明确了现有深度Q网络算法在此类场景下的三大核心痛点。为了攻克这些难点，研究团队对症下药，为ASS-DQN算法设计了三大“利器”：AltMaxQ目标策略，通过交替使用max和softmax操作来平衡Q值估计的果断性与稳定性，从而缓解高估问题；SMU机制，通过设定Q值阈值过滤低价值经验样本，提升经验回放池的数据质量与训练效率；SSG机制，通过概率性地选择次优动作进行分层探索，替代传统的ε-greedy策略，增强算法跳出局部最优的能力。为验证算法有效性，研究团队基于Gazebo和ROS构建了逼真的棉花采摘多机协同仿真环境，对ASS-DQN算法进行了全面的实验评估。

作者为开展此项研究，主要运用了以下几项关键技术方法：首先，构建了一个数据驱动的多智能体强化学习建模框架，将农田作业场景栅格化，并为每台农机定义了包含类型、位置、速度、负载、故障状态及体积等要素的状态向量。其次，设计了精细化的动作空间模型，涵盖了移动、作业、协同和冲突规避四大类行为，并制定了详尽的奖励函数，该函数综合了任务完成、时间效率、燃油消耗、任务均衡和故障处理等多个维度的考量。最后，基于PyTorch深度学习框架实现了ASS-DQN算法及其改进模块，并在包含真实地理信息的仿真环境中进行训练与测试，模拟了不同规模（5台和10台机器）下无故障及随机故障等多种作业情景。

2. 操作场景与多机协同建模

研究将多机任务分配与路径规划问题形式化为多智能体强化学习决策过程，建立了基于DRL的协同作业规划集成框架。该框架强调农机智能体与环境间的交互，通过状态感知、联合动作执行和多目标奖励反馈形成闭环决策。具体而言，研究对作业场景进行了二维栅格空间建模，定义了棉花地、已收获地、道路、障碍物等不同地形属性及其可通行性约束。对于农机状态，则构建了包含机器类型、坐标位置、速度矢量、负载质量、故障标识及机器体积的六维状态向量，为智能体提供了全面的环境感知信息。

2.1. 数据建模

本节详细阐述了如何将农田环境、农机状态和任务需求整合到一个统一的数据模型中。模型将作业地图离散化为0.5m×0.5m的栅格单元，每个单元包含坐标映射和地形属性（如棉花、土地、道路、障碍物），并设定了不同地形上的最大通行速度。农机的状态被建模为一个多维向量，精确刻画了其在每一时刻的动态信息，为后续的强化学习决策提供了基础输入。

2.2. 动作空间建模

为满足农机全生命周期的作业需求并适应环境变化，本研究将动作空间建模分为移动动作、作业动作、协同动作和冲突规避约束四类。移动动作受地形约束（如叉车不能驶入未收获棉田）；作业动作根据农机功能区分（如采棉机采摘并生成棉包，叉车搬运棉包）；协同动作定义了任务交接与故障响应机制；冲突规避约束则确保了同一栅格不被多台农机同时占用，保障了作业安全。

2.3. 奖励函数设计

奖励函数是驱动智能体学习的核心。本研究设计了一个综合多目标（任务完成、时间效率、燃油消耗、任务均衡、故障处理）的奖励合成机制。具体公式为R = w₁·R_task+ w₂·R_time- w₃·R_fuel+ w₄·R_balance。其中，任务奖励根据任务优先级计算，时间奖励鼓励快速完成任务，燃油消耗惩罚与机器能耗挂钩，任务均衡奖励鼓励工作量平均分配，故障处理奖励惩罚因故障产生的额外延迟。这种设计引导智能体学习兼顾效率、能耗与鲁棒性的协同策略。

2.4. 多农机协同作业规划模型

2.4.1. 深度强化学习DQN

尽管DQN等典型DRL算法在许多领域取得成果，但应用于农业多机场景时仍面临Q值高估、经验样本冗余、探索效率有限等挑战。为此，本研究提出了全面增强的ASS-DQN框架，在传统DQN基础上集成了AltMaxQ、SMU和SSG三大关键机制。该图展示了算法的整体框架及各机制的具体作用。

2.4.2. AltMaxQ

为缓解传统DQN因神经网络估值误差导致的Q值系统性高估问题，本研究提出了AltMaxQ策略。该策略在目标Q值计算中，交替使用max操作和softmax操作。Max操作公式为 y = r + γ·max_a'Q_target(s', a')，侧重于决策的果断性；Softmax操作则基于动作值的概率分布进行加权平均，公式为 y = r + γ·Σ_a'π(a'|s')·Q_target(s', a')，其中π(a'|s') = e^Q(s',a')/τ/ Σ_be^Q(s',b)/τ，τ为温度参数，侧重于评估的稳定性。这种交替机制在不引入复杂准则的情况下，动态平衡了策略的激进与保守，有效提升了策略评估的稳定性和收敛效率。

2.4.3. SMU

为提升经验回放的数据质量和训练效率，本研究提出了SMU（Selection with Minimal Uncertainty）机制。与传统经验回放平等对待所有经验不同，SMU引入了基于Q值的硬阈值筛选。智能体与环境交互生成新经验(s, a, r, s')后，利用当前策略网络计算其动作值Q(s, a)。设定一个固定值阈值δ=0.1，若计算出的Q(s, a) < δ，则该经验被丢弃，不写入经验池。在训练阶段，仍采用标准的随机采样机制以保持数据的独立性和多样性。此举从源头剔除了冗余低效数据，提升了样本价值密度。

2.4.4. SSG

为解决传统ε-greedy探索策略依赖随机动作、易陷入局部最优的问题，本研究引入了“次优解群”思想作为对贪婪策略的优化补充。SSG机制在动作选择时，依据概率阈值进行分层：以探索概率γ从所有动作中完全随机选择，以探索潜在高收益动作；以次优解概率β从Q值排序后第2到第m个动作中均匀随机选择，避免过度依赖当前最优；以剩余概率1-γ-β选择当前Q值最高的最优动作，以稳定收益。通过这种分层探索机制，SSG在维持一定开发能力的同时，显著增强了对解空间的探索能力，有助于发现全局更优策略。

3. 仿真分析

3.1. 实验环境

为验证所提方法的有效性，本研究在基于Gazebo 11和ROS Noetic构建的高度可控仿真环境中进行了实验分析。仿真地图基于新疆昌吉市华兴农场棉区遥感与地理信息数据构建，包含真实的农田边界、田间道路、自然障碍物和棉花种植区块。实验涉及采棉机、运棉车和叉车三种典型农机。

3.2. 实验方案

实验分为无故障场景和随机故障场景两大类。在无故障实验中，对比了贪婪分配、ACO（蚁群优化）、GA（遗传算法）、Q-learning、PPO（近端策略优化）、DQN和ASS-DQN等多种调度算法。在随机故障实验中，系统在运行期间随机令一到两台机器发生故障，评估各算法在动态任务重新分配下的性能。

3.3. 结果与分析

3.3.1. 无故障作业效率比较

实验结果表明，无论是在小规模还是大规模无故障条件下，ASS-DQN在作业时间、总能耗和系统延迟方面均全面优于对比算法。例如，在十台机器的大规模场景下，与贪婪分配、ACO和GA相比，ASS-DQN将作业时间分别降低了31.32%、27.20%和22.55%，总能耗降低了29.02%、24.84%和20.46%，系统延迟降低了30.97%、34.40%和32.73%。与Q-learning、PPO和DQN相比，ASS-DQN将作业时间分别降低了13.33%、4.20%和6.60%，总能耗降低了12.26%、8.14%和5.63%，系统延迟降低了9.76%、15.14%和7.03%。这证明ASS-DQN能有效规划高效的任务序列，减少冗余动作。

3.3.2. 故障处理能力分析

在引入随机机器故障的场景下，ASS-DQN同样展现出卓越的鲁棒性和恢复能力。如图，当某台采棉机（图中红“×”标记）发生故障时，ASS-DQN能快速将未完成任务重新分配给其他采棉机，保证了作业的连续性。实验数据显示，在五台机器的故障处理任务中，ASS-DQN的作业时间、总能耗和系统延迟均低于DQN、Dueling DQN、PPO和D3QN，表明其能快速调整策略，在故障后恢复协同作业效率。

3.3.3. 消融实验

为量化AltMaxQ、SMU和SSG各模块对ASS-DQN性能提升的贡献，研究进行了系统的消融实验。结果显示，每个模块独立应用均能带来不同程度的性能改善，而三者联合应用时产生显著的协同增益。当三个机制全部启用时，ASS-DQN取得了最佳性能，与基线模型相比，作业时间减少了6.7%，总能耗降低了6.1%。这证实了三大改进机制分别在价值估计精度、样本利用效率和探索策略上发挥了关键作用，并且功能互补、协同增效。

4. 结论与未来工作

本研究针对棉花收获作业中的异构多机协同调度问题，提出了一种基于改进深度强化学习的路径规划方法——ASS-DQN。通过引入AltMaxQ目标策略、SMU经验选择机制和SSG探索策略，有效解决了传统DQN在农业复杂动态场景下面临的Q值高估、样本冗余和局部最优等问题。大量仿真实验证明，ASS-DQN在无故障和含故障的作业场景下，于作业时间、总能耗和系统延迟等关键性能指标上均显著优于现有对比方法。这表明将ASS-DQN集成于棉花收获作业中，能够显著提升异构多机系统的调度效率，降低作业能耗与时间成本，为智慧农业中的多机协同决策提供了有效支持，展现出良好的实际应用前景。

研究同时指出了当前方法的局限性，例如仅模拟了单次少量机器故障，未考虑更极端的连续故障或环境剧变；仿真环境计算资源充裕、信息完整，与实际农业边缘设备资源受限、存在通信延迟和传感噪声的情况有差异。因此，未来的工作将聚焦于探索轻量化模型架构、边缘部署策略以及结合自适应容错调度机制，以进一步提升算法在复杂动态真实环境中的实用性与泛化能力。总之，这项研究为深度强化学习在农业自动化、精准化协同作业中的应用开辟了一条富有成效的技术路径。

热点排行

新闻专题