建筑能耗与温室气体排放的可信数据驱动混合建模

《Buildings》:Trustworthy Data-Driven Hybrid Modeling of Building Energy Performance and Greenhouse Gas Emissions

【字体: 时间:2026年06月09日 来源:Buildings 3.1

编辑推荐:

  减少建筑二氧化碳(CO2)排放对于缓解气候变化至关重要,大学作为重要能源消费单位尤为关键。本研究构建了一种将机器学习与简化排放因子重标度相结合的混合数据驱动框架,用于预测校园尺度的CO2排放。研究在横截面和时间序列两

  
减少建筑二氧化碳(CO2)排放对于缓解气候变化至关重要,大学作为重要能源消费单位尤为关键。本研究构建了一种将机器学习与简化排放因子重标度相结合的混合数据驱动框架,用于预测校园尺度的CO2排放。研究在横截面和时间序列两种验证设置下,对九种机器学习模型进行了比较评估。在所有评估模型中,人工神经网络(ANN)展现出最可靠的预测性能,在预测精度与泛化能力之间取得了最佳平衡。尽管本研究提出的物理信息LSBoost_PI框架旨在通过残差校正将物理先验与机器学习相结合,但在数据集有限样本条件下,该框架未能改善预测的泛化能力。时间序列交叉验证进一步确认了ANN模型的时间预测能力(RMSE = 2.13吨/年,R2 = 0.985)。为支持可信且可解释的机器学习,特征重要性分析识别出CO2强度指标(CO2/kWh和CO2/TEP)是排放的主导驱动因素。研究还进行了减排评估,揭示出少数高能耗建筑主导了校园整体排放。这些发现为校园尺度能源管理提供了可操作的洞见,支持针对高排放建筑的有针对性的能效提升和可再生能源整合策略。
全球气候政策的核心关切已聚焦于能源消费与温室气体排放,其对未来发展具有深远影响。建筑部门是能源消费与排放的主要贡献者,约占全球能源消费的40%及相当一部分CO2排放。在寒冷气候区,供暖需求更高,这一占比甚至更大,使得建筑能效成为气候变化缓解的关键要素。气候变化加剧效应,包括极端天气条件,也导致城市环境中对能源密集型制冷系统的需求增加,进一步推高了能源需求。可再生能源整合、基于物联网(Internet of Things, IoT)的智能建筑以及能效措施对于降低建筑部门碳足迹至关重要。传统建筑能耗与CO2排放估算方法存在局限,尤其在准确捕捉建筑系统、用户行为与环境因素之间复杂交互作用方面。因此,机器学习(Machine Learning, ML)与人工智能(Artificial Intelligence, AI)方法因其对非线性和高维关系的建模能力而备受关注,可提供改进的能源预测能力。将AI与物理建模技术相结合的混合模型尤为前景广阔,因其兼具高精度与物理一致性,而这正是纯数据驱动方法所欠缺的。

大学校区凭借其多样化的建筑类型、多元的能源需求以及适于分析的管理规模,成为能源管理与减排策略的理想试验场。这些校区产生大量可分析数据以优化能源绩效,但预测校园整体能耗与CO2排放仍具挑战。本研究引入了一种结合机器学习技术(如人工神经网络(ANN)和支持向量回归(Support Vector Regression, SVR))与简化排放因子建模的新型混合模型,以实现更准确的CO2排放估算。该模型应用于土耳其Mu? Alparslan大学18栋建筑,并针对多种性能指标进行评估,为校园尺度能源管理提供了宝贵洞见。

尽管现有混合模型前景可观,但文献批判性回顾揭示了若干显著缺陷,本研究直接加以应对。第一,大多数校园能源研究中的混合方法将基于物理的仿真工具与单一机器学习算法(通常为ANN或SVR)结合,但未能在相同验证条件下系统地将混合策略与一组竞争性模型进行比较,致使优越性验证困难。本研究通过同时评估十种模型——包括SVR、贝叶斯优化SVR、高斯过程回归(Gaussian Process Regression, GPR)、LSBoost、ANN、Bagged Trees、岭回归(Ridge Regression)、单回归树、堆叠集成(Stacking Ensemble)以及提出的物理信息混合LSBoost(LSBoost_PI)——在相同的五折交叉验证协议下进行评估,提供了严谨透明的比较评价。第二,现有应用于校园环境的混合模型主要在涵盖数百栋建筑或多个校区的大型数据集上运行,数据充裕降低了过拟合风险。相比之下,本研究在由18栋异构校园建筑构成的小样本制度下开展,此情景更好地代表了因成本、访问或法律限制而难以进行全面数据采集的现实企业能源管理场景,所提出的框架专门针对这一具有挑战性的小数据环境进行设计与验证。第三,现有混合校园能源模型很少在标准精度指标之外解决模型可靠性问题。本研究提出了涵盖预测精度、保形预测(Conformal Prediction)与高斯过程置信区间的不确定性量化、不同输入污染水平下的噪声鲁棒性分析、基于置换的特征重要性以及留一法交叉验证(Leave-One-Out Cross-Validation, LOOCV)的多层次验证框架,从整体上确保所提模型既准确又可靠。第四,在寒冷气候监管框架下(特别是土耳其国家BEP-TR建筑能源性能标准)开展的校园尺度CO2排放在国际文献中几乎空白,这限制了从温带或热带气候研究向高供暖需求机构情境的转移适用性。

本研究采用的核心技术方法包括以下主要方面。样本数据来源为土耳其Mu? Alparslan大学校区的18栋永久性 Occupied 建筑,数据涵盖完整的年度能源计量记录、官方BEP-TR能源性能证书及经过验证的账单数据,构成完整的校园建筑普查而非随机抽样。建模方面,研究构建了物理信息LSBoost_PI混合模型,该模型采用两阶段残差校正框架:首先利用土耳其官方排放因子表中的天然气排放因子(499吨CO2/GWh)建立物理基线估计,再通过LSBoost学习观测排放与物理基线之间的残差进行校正;同时构建了基于SVR、GPR、LSBoost和ANN四层元特征矩阵的堆叠集成模型作为对照。验证策略上,采用五折交叉验证作为主要协议,并辅以LOOCV提供小样本条件下最保守的泛化性能估计;通过z-score标准化处理输入特征,限制ANN为单隐藏层结构,并对SVR和岭回归施加正则化以控制模型复杂度。不确定性量化方面,采用GPR的95%参数置信区间和基于LOOCV误差的90%非参数保形预测区间。可解释性分析方面,运用SHAP(SHapley Additive exPlanations)值分析、置换重要性、消融测试及噪声鲁棒性分析(对E和TEP输入施加0.02至0.20的相对噪声水平)来确保模型透明度与可靠性。

研究结果部分,首先在数据驱动模型整体性能方面,ANN表现出最均衡稳健的性能(RMSE = 33.16吨/年,R2 = 0.222,Bias = ?0.349吨/年),所有18栋建筑均落在±15%可接受范围内;SVR、SVR_BO、岭回归及堆叠集成则出现负R2值,表明线性及核方法无法捕捉建筑类型间的非线性异质性。在时间序列交叉验证分析中,ANN模型展现出优异的未来年份预测能力(RMSE = 2.13吨/年,R2 = 0.985),验证了其对已知建筑未来排放的可靠预测能力,这与横截面验证回答"能否预测未知新建筑"形成互补视角。

物理数据驱动混合结构性能方面,LSBoost_PI模型在全数据集训练时达到近完美拟合(R2train = 0.997,相对误差<1%),但其五折交叉验证表现极差(RMSE = 352.59,R2 = ?86.96),反映出残差校正组件在小样本条件下对极端建筑特定残差(如会议中心+166吨残差)的泛化无力,说明该框架更适合作为全数据集校准工具而非可泛化预测模型。

可接受范围分析显示,ANN模型所有预测值均落在实测值的±15%范围内,对称散布于参考线周围,表明模型无系统性高估或低估偏差,适用于校园尺度CO2监测。不确定性与置信区间分析中,GPR的95%参数置信区间对大部分建筑实现了良好覆盖,而基于LOOCV的90%保形预测带为所有模型提供了无分布假设的可靠覆盖,ANN模型产生了最窄的平均预测区间宽度,证实其点估计精度与不确定性控制的最优平衡。

特征重要性与消融研究方面,置换重要性分析识别出CO2/kWh(标准化重要性0.415)和CO2/TEP(0.351)为绝对主导预测因子,合计贡献超过76%的重要性;而原始能耗(E)和总能源绩效(TEP)贡献极低,能源等级指数(EnergyClassIdx)甚至出现负值。消融测试进一步证实,移除CO2强度指标导致模型性能急剧下降甚至产生负R2,仅使用这两项指标即可获得强正向R2,包含全部六项特征仅带来边际改善。

噪声鲁棒性分析表明,LSBoost模型在0.10以下噪声水平保持优异性能(R2 = 0.996–0.999),但在0.20噪声水平时R2降至0.965,揭示了极端数据污染下的性能边界。探索性数据分析通过Pearson相关矩阵、CO2强度直方图及箱线图,揭示了建筑间能耗与排放的显著变异性及潜在异常值。主成分分析(PCA)将建筑映射至前两主成分空间,识别出基于能耗强度与碳排放特征的自然聚类,高能耗设施与低消费建筑明显分离。k均值聚类分析确定最优聚类数为3,形成高能耗高排放、中等能耗、低能耗学术行政建筑三类群组,为差异化能源管理策略奠定基础。

多目标模型排序综合考虑预测精度与系统偏差,ANN以复合得分1.000位居首位,Bagged Trees和LSBoost紧随其后,而LSBoost_PI得分最低,确认物理信息混合策略在当前小样本条件下未提供额外泛化收益。建筑层面的减排方案分析识别出会议中心、室内体育馆、供暖中心、实验室、4(6)号宿舍楼及教育楼2-3为六大高排放建筑,其703.67吨CO2/年的排放量占校园总排放1322.19吨CO2/年的58.4%。针对这六栋建筑提出的20%减排目标可消除140.73吨CO2/年,通过HVAC优化(预计节能10–15%)、LED照明改造(预计节能30–50%)及基于实际使用模式的智能运营规划(预计节能8–12%)等措施组合实现;屋顶光伏安装情景分析证实全太阳能整合可实现38%的校园减排潜力。模型可解释性SHAP分析再次确认CO2/kWh和CO2/TEP为预测主导因子,在高能耗建筑中CO2/TEP对正向预测偏差的贡献尤为突出。

讨论部分,研究人员系统分析了模型性能差异的结构性原因:数据集的极端建筑间异质性(排放跨度6.2倍)、小样本约束(18个观测值)以及强特征冗余性共同决定了不同建模范式的成败。线性模型因全局线性假设无法同时拟合高排放与低碳建筑聚类而失败;堆叠集成因18×4元特征矩阵在少样本下严重欠定而导致不稳定权重估计;树集成方法通过对信息丰富分裂点的递归划分有效忽略低信息特征而表现稳健;ANN则凭借其非线性灵活性、紧凑架构及近零偏差的独特组合实现整体最优。

本研究的主要创新价值在于:首次在寒冷气候、小样本、土耳其BEP-TR监管框架下,构建了融合物理先验与先进机器学习、涵盖多层次验证与可解释性分析的可信校园CO2排放估算框架;提供了建筑级别分辨率的排放预测,支持精准识别高排放结构并制定靶向干预策略;将保形预测、置信区间、噪声鲁棒性与SHAP分析整合为确保模型操作可靠性的统一评估体系。研究的局限性包括:18栋单校区数据的统计泛化性不足;物理基线将天然气排放因子应用于电力消费数据作为简化近似带来的系统不确定性;缺乏动态输入变量导致的年度静态预测约束。未来研究方向优先包括:跨气候带多校区验证、实时智能计量与气象数据整合、更大样本下的深度架构与迁移学习探索,以及建筑信息模型(Building Information Modeling, BIM)集成三维校园能源模型的开发。

研究结论部分翻译如下:本研究开发并评估了一种用于建筑层面年度CO2排放估算的混合数据驱动框架,应用于土耳其Mu? Alparslan大学18栋校园建筑。从所得定量结果可直接得出以下结论。在十种评估模型中,人工神经网络实现了最佳交叉验证性能,RMSE为33.16吨/年,MAE为24.98吨/年,偏差接近零(?0.349吨/年),且全部18栋建筑均落在±15%可接受范围内。这一结果直接归因于ANN在小样本异构数据集中捕捉CO2强度指标与排放之间非线性关系的能力,SHAP分析确认CO2/kWh和CO2/TEP为主要预测因子,合计重要性达0.77。线性及核模型在交叉验证下产生负R2值,确认全局线性假设与观测到的6.2倍建筑类型间排放跨度根本不相容。堆叠集成表现最差(RMSE = 59.17,R2 = ?1.48),这直接由小样本约束下18×4元特征矩阵的欠定结构所解释。

物理信息混合模型LSBoost_PI通过结合499吨CO2/GWh的天然气排放因子基线与LSBoost残差校正,在全数据集上实现了近完美预测(所有建筑相对误差<1%,R2train = 0.997)。然而其五折交叉验证性能极差(RMSE = 352.59,R2 = ?86.96),反映出残差校正组件无法将极端建筑特定残差泛化至仅含3–4栋建筑的未见 fold,确认LSBoost_PI更适合作为全数据集校准工具而非小样本条件下的可泛化预测模型。

减排分析表明,会议中心、室内体育馆、供暖中心、实验室、4(6)号宿舍楼及教育楼2-3六栋建筑合计排放703.67吨CO2/年,占校园总排放1322.19吨CO2/年的58.4%。针对这些建筑实施20%的靶向减排可消除140.73吨CO2/年,可通过HVAC优化、LED照明改造和屋顶光伏安装的组合措施实现,后者得到全太阳能整合下38%校园减排潜力的情景分析支持。

本研究存在三项主要局限。第一,数据集包含来自单一寒冷气候校区的18栋建筑,限制了训练模型不经再训练向其他机构或气候情境统计泛化的能力。第二,物理基线将天然气排放因子应用于电力消费数据作为简化近似,因建筑层面燃料消费记录不可得,这给LSBoost_PI基线引入了无法仅通过残差学习完全校正的系统不确定性。第三,缺乏动态输入变量——入住率时间表、室外温度、实时能源计量——将框架约束于年度静态预测,无法支持年内排放监测。

未来研究优先四个方向。第一,应在包括温带、地中海和热带环境的不同气候带多校区数据集上验证该框架,以评估可转移性并建立气候特定模型配置。第二,应将实时智能计量数据、 occupancy 传感器和气象站记录整合为动态输入特征,实现建筑管理系统内的年内排放监测与预警能力。第三,应利用更大的机构数据集探索当前小样本约束所排除的更深神经网络架构、高级集成配置和迁移学习方法。第四,应开发BIM集成的三维校园能源模型,以提供空间显式的排放可视化,并在地理参考决策支持框架内支持建筑层面干预规划。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号