利用基于种群的Multi-Agent PPO算法实现的自适应多智能体HVAC控制系统，以提升热舒适度

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Energy and Buildings》：Adaptive Multi-Agent HVAC Control for Thermal Comfort Using Multi-Agent PPO with Population-Based Training

【字体：大中小】 时间：2025年12月30日 来源：Energy and Buildings 7.1

编辑推荐：

　　本研究提出结合多智能体近端策略优化（MAPPO）和种群基础训练（PBT）的新型HVAC控制算法，通过EnergyPlus仿真验证，在协调多区域控制和动态环境适应方面优于传统规则方法，显著提升热舒适性（PMV降低28.2%）并维持低能耗。

　　
本研究针对建筑HVAC（暖通空调）控制系统在能效优化与舒适度提升方面的双重挑战，提出了一种融合多智能体强化学习与群体训练策略的创新解决方案。研究团队通过整合Population-Based Training（PBT）与Multi-Agent Proximal Policy Optimization（MAPPO）算法，构建了适用于动态多区域环境的协同控制框架，在新加坡南洋理工大学完成的理论验证中展现出显著优势。

一、研究背景与问题提出
建筑HVAC系统在满足人体热舒适需求的同时降低能耗，已成为全球能源转型的关键课题。根据ISO 7730标准，办公建筑需达到Class A（PMV范围-0.2至0.2）的舒适性要求，但实际达标率仅为11%。同时，建筑能耗占全球总量的30%，其中HVAC系统占比高达15%。传统控制方法存在三大瓶颈：首先，基于规则的集中控制系统难以应对多区域耦合的复杂工况，导致局部过冷或过热；其次，模型预测控制（MPC）依赖精确的动态建筑模型，而实际建筑因结构老化、气候变迁等因素，模型需频繁更新维护；第三，现有强化学习方法存在收敛不稳定、参数调优困难等问题，限制了其在实际场景中的应用。

二、技术路线与创新点
研究团队通过解耦"策略优化"与"参数调优"两个层面，构建了双闭环协同控制架构。在策略层面，采用多智能体MAPPO框架实现区域级协同控制，每个智能体负责特定区域温度调节，通过共享奖励函数确保跨区域协调。在参数优化层面，引入PBT算法构建超参数进化池，包含500个候选策略的种群通过生存竞争机制持续优化。

与传统方法相比，本方案具备三大创新：
1. 动态多目标优化机制：在单次推理中同时平衡能耗、舒适度与设备稳定性三个维度。通过设计复合奖励函数，将PMV指标、能耗成本、温度波动率等关键参数纳入决策权重体系。
2. 自适应参数进化系统：PBT框架突破传统固定超参数设定模式，通过模拟进化环境中的种群竞争，自动适配不同建筑场景的优化参数。实验显示其超参数调整效率比网格搜索提升23倍。
3. 异构环境兼容架构：采用分层决策机制，底层智能体处理区域级实时控制，上层协调器解决跨区域耦合问题。这种架构使系统在2小时设备故障后的自适应恢复时间缩短至传统方法的1/3。

三、系统架构与核心算法
（一）MAPPO多智能体框架
系统将建筑划分为N个控制单元（agent），每个单元具备独立的环境感知模块与决策引擎。核心算法创新体现在：
1. 政策网络设计：采用双层LSTM架构处理时序数据，第一层提取建筑动态特征（如逐时室外温度、湿度变化），第二层融合区域历史控制数据生成最优动作。
2. 跨区域耦合补偿：当区域PMV超出阈值±0.3时，触发邻域智能体的协同调整机制。例如，某区域因人员密集需要提升温度时，系统会自动降低相邻区域的送风功率。
3. 在线增量学习：在训练过程中引入动态环境反馈模块，允许智能体根据实时数据更新策略网络参数，适应突发天气变化或临时活动安排。

（二）PBT超参数优化
该模块通过模拟进化环境实现自动化调参：
1. 种群构建：初始化包含500个不同参数组合的PBT种群，每个组合包含学习率、折扣因子、探索系数等核心参数。
2. 适应性筛选：采用"生存-淘汰"机制，每代保留前20%的个体并赋予10%的突变率，通过多目标进化算法（NSGA-II）优化参数组合。
3. 模型蒸馏技术：在进化后期，将种群中表现最优的10个策略进行特征融合，生成最终部署的轻量化控制模型，其参数量比原始模型减少42%。

四、实验验证与效果分析
（一）仿真环境构建
研究团队基于DesignBuilder建立的2层办公楼模型包含：
- 16个独立控制区域（办公室、走廊、会议室等）
- 复杂热交换模型（考虑墙壁、玻璃、家具等热工特性）
- 6类动态负荷（人员流动、设备启停、会议周期等）
- 实时环境数据接口（集成气象站数据与传感器模拟）

（二）对比实验设计
在NVIDIA RTX 4070 Ti平台进行公平测试，主要对比对象包括：
1. 传统规则控制（RTBC）：基于IF-THEN规则的集中控制系统
2. 单智能体PPO：全局统一控制策略
3. MPC控制：需手动输入0.5-2.3年历史数据训练
4. 现有MADDPG：采用固定超参数的分布式控制

（三）关键性能指标
1. 舒适度指标：PMV值标准差控制在±0.15以内，Class A达标率提升至89%
2. 能耗效率：综合能效比传统方法提升31.7%，在夏季典型日期能耗降低22.4%
3. 系统稳定性：连续72小时运行后，控制参数漂移率<0.8%，设备启停频率降低至传统方法的1/5
4. 模型泛化能力：跨3种气候带（热带、温带、寒带）的模型迁移准确率达82%

（四）典型案例分析
在新加坡热带气候条件下（月均温25.6±1.2℃），系统展现出显著优势：
1. 动态适应性：当遭遇突发性高温（超过28℃）时，系统在15分钟内完成控制策略调整，PMV波动幅度控制在±0.2以内。
2. 空间协同效应：相邻区域温度差稳定在±0.3℃以下，垂直温差（上下层）控制在±0.5℃以内。
3. 设备保护机制：通过实时监测 chillers（冷水机组）的负载率，当达到85%阈值时自动触发备用机组切换，避免设备过载。

五、实际应用价值与局限性
（一）应用优势
1. 零模型依赖：仅需基础建筑参数（面积、体积、围护结构热工特性），即可完成系统部署
2. 实时控制响应：决策延迟稳定在200ms以内（建筑内部传感器采样周期为300s）
3. 可解释性增强：通过可视化热力图与控制策略树，实现操作日志的逆向解析

（二）现存挑战
1. 极端天气适应性：当室外温度超过35℃时，系统控制精度下降约15%
2. 长周期训练需求：完整策略训练需72小时模拟运行，限制在线实时进化
3. 多目标权衡局限：在特定场景下，舒适度与能耗的优化存在非凸平衡区域

六、工业化部署路径
研究团队已建立完整的部署框架，包括：
1. 边缘计算设备：定制开发的嵌入式控制器（基于Jetson AGX Orin平台）
2. 网络安全架构：采用区块链技术实现控制指令的防篡改传输
3. 运维管理平台：集成数字孪生模块，支持控制策略的在线迭代更新

该研究成果已在新加坡3栋办公大楼完成试点部署，实测数据显示：
- 人员投诉率下降67%（PMV标准差从0.45降至0.15）
- 系统能耗降低28.6%（基准日期能耗为23.4 kWh/m2/day）
- 设备故障率降低41%（主要由于控制策略的平滑过渡特性）

研究团队特别强调，在建筑群应用中需注意：
1. 跨建筑区域能量协同优化
2. 动态场景下的策略迁移机制
3. 集团级控制中心的数据融合策略

该技术路线为智慧建筑HVAC系统的升级提供了可复用的解决方案框架，特别是在需要同时满足ISO 7730 Class A标准与LEED铂金认证的建筑项目中，展现出显著的技术优势。后续研究将重点突破长时序预测控制与多建筑集群优化两个技术瓶颈。

联系信箱：

粤ICP备09063491号

热点排行