行为克隆引导的多智能体深度强化学习在温室微电网控制中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Smart Agricultural Technology》：Behavior cloning-guided multi-agent deep reinforcement learning for greenhouse-microgrid control

【字体：大中小】 时间：2026年06月09日 来源：Smart Agricultural Technology 5.7

编辑推荐：

　　温室栽培需要精确的气候控制和高效的能量管理以维持作物产量。然而，这一控制任务具有挑战性，因为气候变量高度耦合且受室外天气条件影响。尽管模型预测控制器已被应用，但其性能强烈依赖于系统模型的准确性。本研究提出了一种行为克隆引导的多智能体深度强化学习（MADRL）框

温室栽培需要精确的气候控制和高效的能量管理以维持作物产量。然而，这一控制任务具有挑战性，因为气候变量高度耦合且受室外天气条件影响。尽管模型预测控制器已被应用，但其性能强烈依赖于系统模型的准确性。本研究提出了一种行为克隆引导的多智能体深度强化学习（MADRL）框架，用于集成可再生能源微电网的智能温室的协调控制。该控制问题被建模为一个多智能体系统，其中每个智能体负责气候控制和能量存储的特定功能。首先，通过行为克隆非线性模型预测控制器生成的数据对智能体策略进行预训练，以确保安全学习并加速收敛。随后，采用顺序多阶段训练策略以减少训练过程中的非平稳性。该控制框架通过一个基于物理的番茄栽培模拟器进行了验证。仿真结果表明，在照明和相对湿度方面，跟踪性能得到了改善，同时温度和CO₂调节性能与基准控制器相当。此外，在不同番茄生长阶段，等效电力需求降低了约3-5 W m^-2。这些发现证明了MADRL框架在可变环境条件下，用于温室集成微电网中协调气候控制和能量管理的潜力。

论文解读文章

**研究背景**

随着快速城市化和不断增长的粮食需求，全球粮食系统面临日益严峻的压力。在加拿大，超过80%的水果和蔬菜依赖进口，使得该产业极易受到气候变化、贸易波动和市场中断的影响。温室栽培为实现本地化、全年不间断的粮食生产提供了途径，有助于减少进口依赖和运输相关的排放。然而，其高且持续的能源需求使得其可持续性依赖于能源基础设施。将温室与基于可再生能源的微电网集成，能够增强系统韧性、降低碳强度，并促进粮食安全和能源可持续性。在温室内维持如温度、湿度和CO₂浓度等适宜的气候条件，对于最大化果实产量和作物品质至关重要。然而，这些变量受到外部天气和内部能量约束的强烈影响，需要能够适应动态和不确定条件的控制器。

尽管模型预测控制（MPC）等基于模型的策略已被证明在温室气候控制和微电网能量管理中有效，但其他能依赖于系统模型的准确性。基于强化学习（RL）的数据驱动方法在处理农业-能源系统中的运营不确定性方面显示出潜力。此外，多智能体深度强化学习（MADRL）框架已被探索用于管理连接多个温室的微电网中的能量。模仿学习最近也被引入，作为一种通过专家演示初始化策略的机制，从而加速温室控制任务中深度强化学习的收敛并提高策略稳定性。

尽管取得了这些进展，文献中仍存在显著空白。大多数基于RL的温室研究侧重于调节单个变量或维持预定义的舒适范围，而对多变量轨迹的协调控制关注有限。此外，温室很少被建模为更大能源网络的组成部分，这限制了对气候调节与能量管理之间耦合动力学的分析。通过MADRL控制一个智能温室集成微电网（SGIM）因其非线性、高维度和紧密耦合的特性而固有地困难。气候、能源和水储存子系统在不同的物理时间尺度上运行，并且在能量管理和微气候调节之间表现出强烈的相互依赖性。

**研究人员开展的研究与结论**

为解决上述挑战，本研究提出了一种行为克隆（BC）引导的MADRL框架。该框架将SGIM分解为调节气候变量、能量和水储存的功能性子系统，每个子系统由一个自主智能体管理。为了确保安全探索并加速收敛，智能体执行器（actor）通过行为克隆进行预训练，使用由确定性等价非线性模型预测控制器（CE-NMPC）生成的专家轨迹。随后，通过一个顺序多阶段训练方案对智能体进行更新，以减少非平稳性。该策略增强了稳定性，减少了智能体间的干扰，并促进了跨能量和气候目标的协同运作。

研究通过一个基于物理的番茄栽培模拟器对控制框架进行了验证。仿真结果表明，与基准控制器（BCMA、CE-NMPC、NMPC）相比，所提出的MADRL控制器在照明和相对湿度的跟踪性能上有所改善，同时温度和CO₂调节性能与基准水平相当。此外，在不同番茄生长阶段的RL验证集上，与CE-NMPC控制器相比，等效电力需求降低了约3-5 W m^-2（约4-5.5%）。该控制器还实现了约五倍的在线计算时间减少，显示了相较于基于模型的控制器的计算效率。这些发现证明了MADRL框架在可变环境条件下，用于温室集成微电网协调气候控制和能量管理的潜力。该论文发表在《Smart Agricultural Technology》。

**主要关键技术方法**

1. **多智能体深度强化学习（MADRL）框架**：将控制任务分解为六个智能体，分别对应温度/通风（A1）、湿度（A2）、CO₂（A3）、光照（A4）、电池储能（A5）和水储存（A6）子系统。采用双延迟深度确定性策略梯度（TD3）算法处理连续控制变量（A1-A5），采用深度Q网络（DQN）算法处理离散控制变量（A6）。奖励函数源自CE-NMPC的瞬时目标函数。
2. **行为克隆（BC）预训练**：使用CE-NMPC控制器在105天的模拟过程中生成包含专家状态-动作对的数据集。以此数据集通过监督学习（最小化均方误差）预训练TD3智能体的actor网络，生成初始策略，称为行为克隆多智能体控制器（BCMA）。Bayesian优化被用于高效探索超参数空间以最小化模仿误差。
3. **顺序多阶段训练策略**：训练按物理层次分组进行，首先训练弱耦合的照明（A4）和水储存（A6）智能体，然后合作训练强耦合的气候控制智能体（A1-A3），最后训练电池储能智能体（A5）。每个训练阶段仅更新选定子组的智能体，其余智能体策略被冻结，以减少智能体间的非平稳性并稳定学习环境。
4. **代表性评价窗口**：通过代表日方法从105天的环境数据集中识别出三个代表性环境日（典型日、上极值日和下极值日）与三个生长阶段参考轨迹组合，形成固定评价场景集。在训练过程中，每个m个周期在此窗口上评估智能体性能，并保留最佳性能的策略。

**研究结果**

* **Effect of pretrained actors (预训练执行器的影响)**
通过对光照智能体（A4）的训练行为对比研究发现，采用BC引导（wBC）的智能体在早期阶段表现出快速的性能提升，奖励和评价轨迹稳定且单调地接近早停阈值。而没有BC支持（nBC）的训练则导致收敛速度较慢、性能波动较大以及种子间方差更高。wBC配置在200个训练周期后奖励约为-55，而nBC配置约为-85，对应约35%的回报幅度提升。进一步训练表明，nBC智能体需要近450个周期才能达到可比回报，表明BC初始化将训练工作量减少了约55%。

* **Training reward progress (训练奖励进展)**
通过比较BCMA基线与MADRL训练后的奖励表现，结果显示：与BCMA基线相比，智能体A4和A5的性能提升显著，分别为3.01%±0.04和4.63%±0.27，表明持续训练下策略得到改进。智能体A1-A3的聚合性能略微提升0.53%±0.15，表明预训练策略已接近稳定局部最优。智能体A1-A5的聚合回报从-193.86增加到-188.49±0.29，对应2.57%±0.14%的净提升。智能体A6的回报(-2.36±0.06)超过了CE-NMPC，表明其控制目标成功稳定。

* **Dynamic response of SGIM to varying weather conditions (SGIM对变化天气条件的动态响应)**
通过分析番茄栽培第二生长阶段48小时的控制行为，展示了六个智能体在可变室外条件下的协同工作能力。结果表明：室内温度（T_i）紧密跟踪参考轨迹；室内相对湿度（RH_i）保持在75%附近；CO₂浓度（C_CO2,i）在白天通过注入器补充以支持光合作用；光照强度（I_l）通过自然光与人工光的协调使用维持在200 μmol m^-2 s^-1附近；电池荷电状态（SOC_bat）展示了适当的充放电协调；储水体积（V_sw）通过补水泵的间歇性激活得以维持。

* **Tracking performance (跟踪性能)**
通过对比MADRL、BCMA、NMPC和CE-NMPC在RL验证集上多个番茄生长阶段的控制性能，结果显示：NMPC在温度跟踪上误差最低（约0.6°C），MADRL稍高（约0.8°C），但与BCMA和CE-NMPC相当。在湿度调节上，MADRL在所有阶段均实现了最低跟踪误差（1.5-2%）。在CO₂浓度调节上，CE-NMPC表现最佳，MADRL误差略高，显示了与湿度控制改进的权衡。在光照控制上，MADRL优于BCMA和CE-NMPC。在电力交换方面，BCMA实现了最低的进口功率，而MADRL由于更好的气候调节，进口功率略高。在储水体积方面，MADRL与模型基控制器相比维持了较低水平。MADRL在计算时间上相比CE-NMPC实现了约五倍的减少。

* **Energy demand (能量需求)**
通过比较不同控制器在多个番茄生长阶段的等效电力需求，结果显示：最高需求出现在第1阶段，因其全天固定25°C导致持续加热需求。在所有阶段中，MADRL达到了略低的平均功率需求。与CE-NMPC基线相比，在RL验证集上的减少范围为约3 W m^-2（第3-4阶段约4%）到5 W m^-2（第1阶段约5.5%）。这种减少反映了气候与储能子系统间更高效的协调。

**总结与讨论**

该研究解决了在不同室外环境条件下，智能温室-微电网系统中协调气候控制和能量管理的挑战。研究人员开发了一个BC引导的MADRL框架，用于联合调节温室气候、水储存和电池储存。仿真结果表明，所提出的控制器成功调节了多个番茄生长阶段的关键温室变量。

研究结论部分原文翻译如下：
本研究解决了在变化的室外环境条件下，智能温室-微电网系统中协调气候控制和能量管理的挑战。开发了一个BC引导的MADRL框架，用于联合调节温室气候、水储存和电池储存。TD3智能体的actor网络通过BC进行预训练，模仿CE-NMPC控制器的动作。顺序多阶段训练策略减少了学习过程中智能体间的非平稳性，而预训练执行器初始化提高了学习稳定性。
仿真结果表明，所提出的控制器成功调节了多个番茄生长阶段的关键温室变量。与BCMA和CE-NMPC基线相比，它提高了湿度和光照控制的跟踪性能，同时在温度调节和CO₂浓度方面表现出略高的偏差。此外，在RL验证集上，与CE-NMPC控制器相比，该控制器在不同番茄生长阶段将等效电力需求降低了约3-5 Wm^-2（约4-5.5%）。并且，其在线计算时间减少了约五倍，表明所提出的控制器相较于基于模型的控制器具有计算效率优势。

讨论部分指出，尽管所提出的MADRL控制器在模拟中显示出有前景的性能，但仍存在一些局限性。首先，评估依赖基于物理的模拟器而非实际温室实验，可能引入模型不确定性。其次，研究假设了连续的双向电网电力交换，孤岛运行或需求响应参与等场景需要更复杂的协调机制。此外，本研究仅考虑了单一种植类型、单一天气地点和单一评估周期。因此，需要涉及季节性评估和多个天气地点的进一步研究，以更好地评估所提MADRL框架的鲁棒性和适应性。研究也未包括与完全集中式RL或替代性合作式多智能体RL方法（如MAPPO和MADDPG）或基于AIRL的框架在温室-微电网应用中的直接比较。因此，涉及这些方法的系统性比较评估仍是未来研究的重要方向。

联系信箱：

粤ICP备09063491号

热点排行