基于教师-学生强化学习框架(MPC-PPO)的日光温室多目标温度智能调控研究
【字体:
大
中
小
】
时间:2025年10月10日
来源:Smart Agricultural Technology 5.7
编辑推荐:
本研究针对北方日光温室冬季温度波动大、控制精度低及能耗高等问题,提出了一种融合模型预测控制(MPC)与近端策略优化(PPO)的教师-学生强化学习框架(MPC-PPO)。通过MPC生成高质量控制经验指导PPO智能体学习,并采用自适应动态加权机制平衡多目标优化。结果表明,该方法在温度控制性能上较单一PPO提升5.46分,通风控制奖励达99.19±0.54,且具备优异的跨区域泛化能力,为温室节能增效提供了创新解决方案。
在我国北方地区,日光温室是现代农业的重要组成部分,这些被动式结构主要依赖太阳能加热和通风系统来维持作物生长环境。然而,冬季温度的剧烈波动常常导致控制效果不佳,不仅影响作物生长,还造成热能的大量浪费。有效管理这些问题往往需要平衡多个相互冲突的目标,比如在优化作物生长的同时尽量减少能源消耗。因此,开发一种能够高效优化多目标并在极端气候条件下增强通风策略的先进控制系统变得至关重要。
传统的模型预测控制(MPC)方法虽然能够处理多目标优化问题,但其性能高度依赖预测模型的准确性。在温室应用中,这些预测模型需要包含复杂的热量和质量传递过程,试图刻画室内空气、结构组件和外部环境之间复杂的热力学关系。尽管已经开发了在线系统识别和参数自适应等先进方法,但由于全面传感器部署的高成本以及实时精确建模复杂非线性能量和质量交换过程的困难,其实际实施仍然面临挑战。
与此同时,强化学习(RL)作为复杂控制问题中序列决策的一种有前景的方法,通过与环境迭代交互来学习最优控制策略。其端到端的学习范式减少了对精确系统模型的依赖,并展示出对非线性和时变环境的强大适应能力。然而,传统的强化学习需要大量的环境交互,使得在物理温室中收集数据进行策略迭代既昂贵又耗时。
为了解决MPC中模型精度不足和RL中采样与探索效率低的问题,研究人员提出了一种教师-学生MPC-PPO框架,包含三个关键步骤:经验增强、动态替换和策略优化。该框架通过将MPC与基于PPO的策略优化相结合来提高性能。PPO智能体从MPC"教师"生成的精选高质量控制经验中学习,自适应机制动态整合这种专家指导,使智能体能够有效平衡多个目标并实现卓越性能。
这项研究发表在《Smart Agricultural Technology》期刊上,研究人员为了开展这项研究采用了几个关键技术方法:首先建立了基于多项式特征的温室环境预测模型和基于深度学习的环境仿真模型;设计了多目标奖励函数来平衡温度控制精度、通风效率、动作平滑度和温度稳定性;开发了PPO策略网络并采用重要性采样和裁剪目标来确保训练稳定性;提出了基于奖励的自适应经验替换机制来实现MPC与PPO的有效融合;最后通过特征重要性分析和跨区域测试来验证模型的解释性和泛化能力。研究数据来源于中国北方三省(北京、河北和山东)的四个日光温室,共收集了78,336个数据点。
4.1. 环境模型性能
研究人员比较了多项式模型和深度学习模型的预测精度。多项式模型实现了0.1357°C的均方误差(MSE),满足了MPC控制器在计算速度和预测精度之间的平衡需求。深度学习模型观察到0.0769°C的MSE,相比多项式模型提高了约43.3%的预测精度,从而为RL训练提供了可靠的环境模拟。
4.2. MPC-PPO控制性能
4.2.1. 温度控制
MPC-PPO方法在整体性能上表现出显著优势,最终奖励为96.31±4.71,既实现了最高的控制精度,又保证了稳定性。对于温度控制奖励(70%权重),MPC-PPO方法获得了94.99的最高奖励和最小的波动范围(±6.66),相比传统MPC方法(92.19±12.80)提高了2.8分,标准差几乎减半。
4.2.2. 动作平滑度和温度稳定性
MPC、PPO和MPC-PPO在动作平滑度方面都取得了99.65的高奖励和最小波动(±0.81),表明它们在避免频繁调整和延长执行器寿命方面的有效性。MPC-PPO和PID方法在温度变化方面都实现了100.00的完美奖励且无波动(±0.00),能够处理剧烈的温度波动。
4.2.3. 通风控制
MPC在通风控制方面获得了最高奖励(99.36±0.49),其次是MPC-PPO(99.19±0.54)。这种微小差异表明MPC可以在短时间范围内实现近乎最优的控制。然而,MPC-PPO在单点精度上略有牺牲,但通过策略网络的泛化能力获得了强大的环境适应性。
4.2.4. 学习效率
MPC-PPO模型在少于1000万训练步数内收敛,并表现出比标准PPO模型更平滑的学习曲线。标准PPO模型呈现波浪式改进,在约3500万步左右达到稳定,需要比MPC-PPO模型多约3.5倍的计算资源。
4.3. 动态嵌入机制性能
最终奖励在经验整合策略之间范围在92.45到96.31之间,表明了动态嵌入机制的优势。动态嵌入策略(阈值90)实现了94.99±6.66的最高奖励,与基线相比在温度控制上提高了5.46分。虽然所有动态嵌入配置表现相似,但阈值=90策略产生了最高的最终奖励。
4.4. 组合特征影响分析
控制性能随着特征丰富度的增加而提高,最终奖励范围从91.71到96.31。特征从10个减少到3个使温度控制奖励显著下降(从94.99到88.19),变异性增加(标准差从±6.66到±12.27)。最大的差异出现在基线(G1)和最小特征组(G5)之间,即最终奖励下降了4.6分。
历史窗口开口被证明是对整体系统性能影响最大的特征,贡献了最高的绝对SHAP值(7.449)。随后依次是空气温度(4.905)、历史温度(4.747)、墙壁温度(0.190)和土壤温度(0.137)。这些结果以及G3和G4之间的急剧性能下降证实了历史信息在温室气候控制中的关键作用。
4.5. 模型泛化性能评估
为了评估泛化能力,环境模型(包括多项式和深度学习)和控制策略(PPO和MPC-PPO)专门在河北温室的基准数据集上训练。这些训练好的模型随后直接部署在三个不同的温室环境(北京、河北和山东)中进行测试,无需任何重新训练或参数微调。
所有控制方法在北京表现最佳(95.98到99.12),其次是在河北(90.23到95.44),在山东最低(80.62到85.80)。性能差异反映了各地独特气候条件的影响,每个地区都作为独特的外部干扰集。MPC-PPO耦合框架在所有测试区域都实现了最佳性能。
研究结论表明,MPC-PPO耦合框架为温室环境提供了有效控制,在温度控制上优于传统MPC系统2.8分,并将受控温度的标准差减少了近一半。动态嵌入策略(阈值90)相比无经验整合基线将温度控制奖励提高了5.46分,并减少了控制波动。输入特征丰富度与系统控制性能呈正相关,历史平均温度和平均窗口开口对温度控制精度有重要影响。MPC-PPO框架展现出优异的跨区域泛化能力和环境适应性,即使在显著的环境分布变化下也能保持高效控制。
这项研究的意义在于为日光温室提供了一种具有高效训练、多目标协调和跨环境适应能力的智能通风控制系统。MPC-PPO方法通过深度整合MPC和策略优化算法,解决了MPC模型需求响应不足和PPO采样效率低的问题。所提出的框架不仅实现了温度控制精度、系统稳定性和热能保存之间的多目标平衡,还展示了良好的环境适应性和跨区域泛化能力。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号