
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于线性与树模型的跨域住宅特征智能分析及其在提升能源效率中的应用研究
【字体: 大 中 小 】 时间:2025年08月04日 来源:Advanced Intelligent Systems 6.1
编辑推荐:
这篇综述系统探讨了机器学习方法(包括过滤法、包装法和嵌入法)在住宅建筑能效评估中的应用,重点分析了跨域数据集(建筑特征、能耗、环境因素和成本)整合的价值。研究通过特征选择技术(Pearson相关系数、互信息MI、递归特征消除RFE、Lasso回归、随机森林RF和梯度提升GB)识别出CO2排放量(CEPFA)、当前能耗(ECC)和供暖成本(HCC)等关键影响因素,为制定精准节能策略提供了数据支持。
研究聚焦住宅建筑能效优化这一全球性议题,通过整合建筑特征、能源消耗、环境因素和成本数据(EPC数据集),采用多元机器学习方法识别关键影响因素。结果表明,CO2排放量(CEPFA)、当前能耗(ECC)和供暖成本(HCC)是预测能效评级(CEE)的核心指标,其中CEPFA在随机森林(RF)和梯度提升(GB)模型中重要性得分分别达0.757和0.766。跨域特征整合揭示了传统单域研究忽略的能效优化机会。
住宅建筑占全球能耗50%以上,提升其能效对实现联合国可持续发展目标(SDG 7、11、13)至关重要。现有评估方法如标准评估程序(SAP)和简化SAP(RdSAP)存在成本导向局限,误差率高达30%。研究提出通过机器学习分析英国约克地区49,959条EPC数据,解决特征交互复杂性和数据异质性挑战。
欧盟建筑能效指令(EPBD)推行的能源绩效证书(EPC)体系将能效分为A-G级。比较分析显示,美国住宅能源服务网络(RESNET)的HERS指数、爱尔兰建筑能效评级(BER)等工具各具优势,但均缺乏跨域特征整合。研究指出被动式住宅标准(Passive House)和建筑信息模型(BIM)等技术创新的局限性。
数据集包含92个变量,分为四大类:
建筑特征:总面积(TFA)、可居住房间数(NHR)
能源指标:主供暖能效(MHEE)、热水能效(HWEE)
环境因素:CO2排放(CEC)、每平米排放量(CEPFA)
成本指标:年度供暖成本(HCC)、照明成本(LCC)
采用中位数填充缺失值,分类变量通过标签编码(如"非常好"=1,"非常差"=0)转化为数值。特征缩放使用Min-Max标准化(公式3)和Z-score标准化(公式4)。
皮尔逊相关系数显示CEPFA(-0.88)和ECC(-0.86)与能效强负相关;互信息(MI)识别CEPFA(1.05)为最具信息量特征。
递归特征消除(RFE)确定TFA、NHR等10个核心特征,迭代公式如(7)所示。
Lasso回归(公式8)筛选出HWEE、WEE等非零系数特征;随机森林通过基尼不纯度下降量(公式9)量化特征重要性。
第一主成分(PC1)载荷中照明能效(LEE)贡献度达-0.57,解释方差的68%。
TFA系数34.68表明建筑面积扩大提升能效,而ECC(-82.07)揭示能耗增加显著降低评级。
跨方法一致性验证CEPFA、ECC、CEC为关键特征:
RF/GB:CEPFA重要性>0.75
MI:CEPFA得分1.05
Lasso:ECC系数绝对值最大
提出融合线性(Pearson)与非线(MI)方法的混合特征选择框架,解决传统单域模型忽略特征交互的问题。
为英国"绿色住宅补助金"政策提供数据支持,建议优先改造CEPFA>45kgCO2/m2的住宅。
研究局限性在于未纳入气象数据等外部变量。未来将整合SHAP值解释模型,并扩展至商业建筑领域。当前成果已为约克地区节能改造节省预估23%的审计成本。
生物通微信公众号
知名企业招聘