利用强化学习与自适应情境感知预测环境对住宅建筑中的区域供暖系统进行优化
《Energy and AI》:District heating optimization in residential buildings using reinforcement learning with adaptive context-aware predictive environment
【字体:
大
中
小
】
时间:2025年10月11日
来源:Energy and AI 9.6
编辑推荐:
本文提出了一种结合自适应上下文感知Transformer与深度Q网络(DQN)的框架,用于优化区域供暖系统。通过引入建筑地理特征、结构属性等上下文信息,Transformer实现了6小时室内温度预测(RMSE 0.18-0.32°C),DQN则基于预测动态调整管路温度,在瑞典和芬兰的148栋建筑中验证。实验显示,中高层建筑节能达14.85%,峰值季节节能超20%,同时保持室内温度±0.5°C偏差。系统通过安全边界约束和奖励函数平衡能效与舒适性,为智能供暖控制提供新范式。
随着全球对可持续发展和能源效率的重视,城市供热网络作为实现这一目标的重要组成部分,正面临如何在异构建筑特性和动态环境条件下优化其控制策略的挑战。传统控制策略通常基于室外温度补偿曲线和基础反馈机制,这些方法在应对不同建筑的热特性以及动态的用户行为模式时显得不够灵活。特别是在瑞典,这种气候多变的环境使得传统控制策略在适应建筑特定热特性方面存在明显不足。因此,本研究提出了一种集成的机器学习框架,该框架结合了自适应上下文感知变压器模型和深度强化学习,以解决这些局限性问题。
本研究的创新点在于将自适应上下文感知变压器模型作为强化学习环境的一部分,这为深度Q网络(DQN)提供了动态的室内温度预测能力。通过处理建筑特有的特征和多变量输入时间序列数据,该模型能够准确预测不同建筑在不同控制策略下的室内温度轨迹。这种预测能力使DQN代理能够在多个时间尺度上做出更有效的控制决策,从而实现更高效的供热控制。利用瑞典和芬兰148栋住宅建筑的真实世界数据,模型在瑞典建筑中实现了0.18–0.24°C的均方根误差(RMSE),而在芬兰建筑中则达到了0.26–0.32°C的RMSE。这表明模型在不同气候条件下都能保持较高的预测准确性。
为了确保控制策略在实际应用中的安全性和可靠性,系统还必须严格遵守操作安全限制,同时保持居住者的舒适度。供应管道的温度必须在安全操作范围内(20–70°C)以防止热应力、系统退化和居住者的不适。因此,实现安全关键约束下的优化控制策略成为另一个非同寻常的挑战,必须通过特定的方法来解决。
近年来,人工智能在能源系统中的应用提供了强大的工具,用于解决这些复杂性问题。例如,王等人对浅层与深层机器学习方法在建筑热负荷预测中的全面分析,以及李等人提出的基于变压器的冷却负荷预测网络,都展示了深度学习在处理时间序列数据方面的潜力。这些方法通过整合建筑的上下文信息和时间特征,显著提高了预测的准确性,特别是在建筑类型和气候条件多样的环境中。
然而,现有方法仍存在三个关键的不足:(1)预测模型中对建筑特定上下文信息的整合不足,导致控制策略过于简化;(2)对室内、室外和供应温度之间复杂相互作用的建模不足,限制了控制效果;(3)缺乏能够同时优化能源消耗并确保舒适度和操作安全的强化学习策略。为了解决这些问题,本研究提出了一种新的集成框架,通过增强之前开发的自适应上下文感知变压器模型,使其能够作为强化学习的环境模拟器,从而实现更精确的建筑特定控制。
在数据准备方面,本研究使用了来自瑞典和芬兰建筑的多变量时间序列数据,数据采集间隔为15分钟。为了确保模型的有效性,数据集的划分采用了70%用于训练,30%用于验证,30%的最新数据用于测试。这种划分策略保证了模型的稳健开发,同时维护了适当的评估条件。在预测任务中,平均室内温度是目标变量,而室外温度和供应温度则作为输入特征。提取的时间特征被编码为位置编码矩阵,确保了模型能够学习到时间序列数据中的周期性模式。
为了提高模型的适应性和泛化能力,我们引入了建筑特定的上下文元数据,包括地理位置、建筑结构、垂直高度、公寓密度指数和建筑类型。这些元数据被转换为密集向量表示,通过嵌入过程实现。具体来说,对于每栋住宅建筑,我们将其元数据特征转换为10维的嵌入向量,并将这些嵌入向量拼接起来,形成60维的上下文向量。这一上下文向量随后被投影到与变压器隐藏空间相匹配的64维空间,并添加到48小时时间序列中的每个时间步长,使模型能够学习不同建筑类型如何随时间变化而响应。
在强化学习(DQN)部分,我们采用了一种新的框架,该框架通过集成自适应上下文感知变压器模型和DQN代理,实现了对建筑热行为的预测和控制。DQN代理利用自适应上下文感知变压器模型的预测结果,通过交互学习来优化控制策略。模型的设计包括五个离散的控制动作,分别是-4.0°C、-2.0°C、0°C、+2.0°C和+4.0°C。为了确保系统在各种条件下的稳定性和安全性,我们实施了自适应安全界限(20–70°C),这些界限根据当前系统状态、建筑热状态和操作约束动态限制最大允许的温度调整。通过这种机制,确保了所有控制动作都在安全操作范围内,防止了代理可能学习到的危险控制策略。
奖励函数的设计是为了在维持最优室内舒适度的同时,考虑多个控制目标和系统稳定性。奖励函数通过温度维持、天气响应性和控制稳定性来评估代理的性能。温度维持奖励鼓励代理保持室内温度接近21°C的目标,而天气响应性奖励则鼓励代理根据室外温度的变化调整供应管道温度。控制稳定性奖励则通过惩罚连续温度差异的平方和,防止了室内温度的快速波动,从而避免了居住者的不适和系统的低效。这些奖励的权重系数通过超参数调优确定,确保了温度维持目标与天气响应性和系统稳定性之间的平衡。
DQN代理的架构包括两个神经网络——DQN模型和目标模型,这两个模型的结构相同,包含一个9神经元的输入层、两个256神经元的隐藏层(使用ReLU激活函数)和一个5神经元的输出层,对应于五个离散的控制动作。训练过程包括经验回放缓冲区,该缓冲区存储了状态转换、动作和奖励的元组,以打破时间相关性并提高学习稳定性。Q值计算器处理这些样本,利用当前的DQN模型和目标模型来生成稳定的Q值估计。目标模型每隔5个回合更新一次,以减少学习过程中的过估计偏差。动作选择器使用ε-贪婪策略,根据DQN模型的输出选择探索性的随机动作或利用已学的策略。
在实验设置中,我们使用了来自瑞典斯德哥尔摩的五栋建筑的数据,这些数据涵盖了三年(2020–2023)的时间跨度,以确保数据质量和可比的操作条件。训练过程涉及4000个回合,其中环境处理建筑数据并生成室内温度预测,DQN代理根据这些预测选择控制动作。验证使用了最近一年的测试数据,涵盖了多种季节和建筑类型,以确保模型的泛化能力。模型的性能通过RMSE、MAE和R2等指标进行评估,这些指标提供了对预测模型性能的有价值的见解。
实验结果表明,DQN代理在控制建筑供暖系统方面取得了显著的节能效果。在中高层建筑中,实现了高达14.85%的能源消耗减少,而在春季月份,峰值季节节能超过20%。这些结果验证了所提出的集成方法在实际应用中的潜力,特别是在不同建筑类型和环境条件下实现高效的室内气候管理。同时,这些节能效果在不同季节和建筑类型中表现出了显著的差异,表明需要针对不同季节和建筑使用模式设计特定的控制策略。
讨论部分强调了本研究的成果和局限性。通过将自适应上下文感知变压器模型与深度强化学习结合,我们成功地开发了一种有效的优化方法,以提升住宅建筑的供热效率。模型的预测准确性在不同地理位置和建筑类型中得到了验证,而DQN代理在控制策略上表现出色,实现了节能目标。然而,该方法在实际部署中仍面临一些挑战,例如数据量不足可能导致预测精度下降,以及在跨国家部署时需要考虑不同的建筑标准和气候条件。这些挑战可以通过联邦学习、分层控制架构和迁移学习等方法来解决。
本研究的结论表明,将自适应上下文感知变压器模型作为强化学习环境,为优化住宅建筑的供热系统提供了一种有前景的方法。通过整合预测能力和优化控制策略,系统在不同建筑类型和环境条件下实现了显著的节能效果,同时保持了居住者的舒适度。这些成果支持了基于机器学习的方法在提升供热系统效率和可持续性方面的可行性,为实现更广泛的能源优化目标提供了理论依据和技术支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号