通过整合视觉编码技术和视觉大型语言模型来解码能源消费模式

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Expert Systems with Applications》：Decoding Energy Consumption Patterns Through Integration of Visual Encoding Techniques and Vision Large Language Models

【字体：大中小】 时间：2026年02月15日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　本研究将视觉大语言模型（VLLMs）与Gramian角域（GAF）和马尔可夫转移场（MTF）结合，用于解析智能建筑中的多维能源消费模式。通过将时间序列数据转换为3D空间结构，VLLMs能更高效地识别异常能耗、多时间尺度关联及潜在依赖关系，并生成可解释的中文报告。实验表明，在3D GAF图像分类任务中，优化后的VLLMs准确率达0.903，显著优于传统CNN模型，且自然语言报告的BLEU分数提升至0.0549。该框架解决了传统深度学习模型在时空联合分析上的局限性，为智能电网优化和政策制定提供新工具。

阿明·贝查尔（Amine Bechar）|阿贝斯·阿米拉（Abbes Amira）|阿德尔·奥莱夫基（Adel Oulefki）|亚辛·希穆尔（Yassine Himeur）

阿联酋沙迦大学计算机科学系

摘要

资源管理和可持续性需要分析能源消耗情况。现有模型在映射数据集中的时空模式方面存在困难。本研究提出了一种将视觉大型语言模型（VLLMs）与格拉米安角场（Gramian Angular Fields, GAF）和马尔可夫转移场（Markov Transition Fields, MTF）相结合的方法，用于能源消耗模式分析。通过将时间序列数据转换为空间结构，VLLMs有助于更好地理解消耗模式与时间尺度之间的相互作用。GAF利用极坐标编码关系，并通过颜色映射增强3D散点可视化效果，以反映能源消耗的波动性。MTF通过颜色映射编码状态转移概率，改善了能源消耗模式的谱状可视化效果。VLLMs能够解释消耗模式，检测相关性偏差，并生成自然语言报告，突出异常的能源消耗行为。验证使用了VLLM生成的报告。在MTF增强型3D图上微调的Idefics3-7B模型取得了0.0549的BLEU分数，而2D模型的分数为0.0104，1D模型的分数为0.0057。Idefics3-7B的平均准确率为0.903，优于用于分类3D GAF图像的卷积神经网络模型。本研究将计算机视觉与能源分析相结合，同时优化了政策制定和智能家居系统。

引言

将人工智能（AI）整合到智能家居系统中已成为提高住宅建筑能源效率的关键创新（Rocha等人，2021年）。根据美国能源信息署的数据，预计到2050年全球能源需求将增加近50%（美国能源信息署，2021年）。因此，对智能家居解决方案的需求达到了前所未有的水平（Raj等人，2024年；Tarish，2025年）。这种紧迫性使得智能家居成为应对能源消耗增加挑战和弥合高能耗生活方式与环保生活方式之间差距的重要平台（Siswipraptini等人，2024年；Wang和Qian，2025年）。

利用AI和物联网（IoT）可以在不牺牲居民舒适度和便利性的前提下，创新性地优化能源消耗（Ikegwu等人，2025年；Li等人，2019年）。这一进展对住房行业尤为重要，因为该行业约占全球能源消耗的25%（González-Torres等人，2022年）。近年来，智能家居技术取得了显著进展，尤其是在能源管理（Zhou等人，2016年）、智能恒温器（Mohtashami等人，2025年）、实时能源监控系统（Mudaliar和Sivakumar，2020年）以及自适应照明解决方案（Shahzad等人，2016年）方面。这些发展不仅逐步推进，还代表了住宅区能源消耗设计、管理和最小化方式的范式转变。

识别时空模式对于理解能源消耗模式和规划能源系统至关重要（Niu等人，2021年）。先进的深度学习（DL）方法通过处理和分析来自互联系统的大量数据，将能源效率提升到了新的水平（Rivkin等人，2024年）。这些模型可以通过预测需求模式、管理电网负荷和改进建筑自动化系统来优化能源消耗（Abdel-Basset等人，2021年；Xin等人，2022年）。深度强化学习方法在优化需求响应方面表现出色，可在智能电网应用中将高峰负荷能源消耗减少多达30%（Kotsiopoulos等人，2021年；Rojek等人，2025年；Galas等人，2025年）。此外，变压器架构现在能够通过改进的生产预测和存储优化，更有效地整合可再生能源（Jalit等人，2024年）。尽管DL模型已经得到了改进，但它们通常优先考虑序列或空间特征提取，并需要额外的组件将视觉模式与文本元数据相结合。最近在主动异常检测方面的进展表明，通过多模式识别可以在家用电器中实现更好的能源优化（Papaioannou等人，2024年）。此外，像EnergiQ这样的基于LLM的平台在通过规范分析解释家用电器的能源消耗模式方面展现了潜力，凸显了语言模型在能源管理应用中的巨大潜力（Papaioannou等人，2025年）。

然而，传统的DL模型（如长短期记忆网络LSTM、卷积神经网络CNN或循环神经网络RNN）通常一次只关注一个主要任务，例如预测能源使用或分类消耗模式（Zheng，2023年）。虽然最近的混合架构提高了多任务处理能力，但在同一处理流程中生成自然语言报告通常需要专门的预处理和后处理组件。这些模型需要仔细的数据清洗、特征工程以及对架构和超参数的广泛调整（Yeaser等人，2025年）。例如，RNN在处理长序列时经常遇到梯度消失的问题，而LSTM在处理长时间依赖性时计算成本较高，但表现更好。CNN在规则间隔的模式识别方面表现出色，但缺乏序列敏感性。输出通常是数值预测或类别标签（Shaikh等人，2021年）。此外，尽管CNN在处理2D/3D空间数据方面表现出色，且最近的多模态扩展提高了其能力，但它们并非天生设计用于生成将检测到的模式与操作原因联系起来的文本报告。同样，虽然RNN和LSTM可以处理时间序列，但在没有架构修改的情况下，它们在并行分析多变量、空间编码数据时面临挑战。

大型语言模型（LLMs）通过利用其多模态处理能力，整合智能城市基础设施中的各种数据流，推动了城市能源效率的进步（Khennouche等人，2024年；Zhang和Chen，2025年）。视觉大型语言模型（VLLMs）作为LLMs的一个专门子集，在能源消耗分析方面优于传统方法。通过整合视觉和文本数据，VLLMs提高了能源消耗模式的可解释性，并提供了更细致的见解。这些模型可以分析物联网传感器数据（Liang等人，2025年；Zong等人，2025年；Guastalla等人，2025年；Krishnamachari，2025年）、历史能源消耗模式（Choi和Yoon，2024年）、数据提取（Buster等人，2024年；Chen等人，2025年）以及天气预报，从而优化建筑物的供暖、通风和空调（HVAC）系统（Lu等人，2024年），通过适应性温度调整和占用调度实现节能。LLMs还通过处理电网拓扑和消耗趋势的数据，预测需求峰值并在高峰时段自动重新分配负荷，提高了智能电网的韧性（Khattak，2024年）。它们的自然语言处理能力使其能够与城市管理系统集成，使城市管理者能够通过对话界面查询能源性能指标并进行优化（Cali等人，2023年）。这些实现突显了LLMs在统一不同的智能城市和数据生态系统方面的独特能力，同时提供了人类可解释的优化策略，以实现可持续能源管理（Cui和Cao，2024年；Zhou和Liu，2024年）。

传统的时间序列分析方法难以捕捉能源消耗数据中的多维关系，其中时间模式、空间相关性和上下文因素同时作用。迫切需要一个统一的框架，既能高精度分析复杂的时空能源模式，又能生成自然语言洞察和建议，从而弥合技术分析与决策之间的差距。通过将时间序列能源数据编码为格拉米安角场（GAF）和马尔可夫转移场（MTF）图像，时间序列被转换为VLLMs可以解释的空间模式。

通过GAF和MTF改进能源数据的3D表示，克服了传统分析的关键限制，有助于在查看3D图表时发现隐藏的角度。GAF通过将时间相关性映射到极坐标，将1D时间序列数据编码为空间格式，而MTF封装了一阶马尔可夫转移概率（Oulefki等人，2024年；Wang等人，2015年）。当与使用低秩适应（LoRA）微调的VLLMs结合使用时，这种结构化的视觉框架通过使模型能够识别层次模式，简化了复杂的时间序列分析。VLLMs与传统CNN和RNN的不同之处在于，它们能够结合语言的上下文理解提取视觉特征。VLLMs利用多模态预训练将视觉嵌入与语义概念对齐，从而推断出潜在关系和缓解策略。VLLMs将视觉图像与语义概念匹配，从而推断出隐藏的关系和模式，将分析简化为一个可解释的框架，将3D可视化转换为叙述。

本文介绍了一种结合了GAF和MTF编码的VLLMs，专门用于解码智能建筑环境中复杂的时空能源消耗模式。具体来说，表1展示了在3D时间序列可视化背景下，GAF、MTF和VLLMs在能源消耗分析方面的比较。该表突出了每种方法在捕捉和表示复杂能源消耗模式方面的描述、优点和局限性。

本研究通过整合视觉编码技术和VLLMs，为能源消耗分析领域做出了多项贡献。具体贡献包括：

•

将VLLMs与通过GAF和MTF编码的3D增强型能源图表相结合，专门用于智能建筑环境中的能源消耗模式分析；

•

利用GAF和MTF改进3D可视化效果，以检测相关性，解决LLM在处理时间序列和分析3D图表中隐藏角度方面的局限性；

•

通过将时间序列数据转换为3D视觉格式，使VLLMs能够识别异常的消耗模式并生成可解释的洞察；

•

使用四个开源LLM评估框架，根据十个标准从0到1进行评分，通过基于多标准平均值的分析层次过程（AHP）对1D/2D/3D报告进行排名；

•

能够识别异常的消耗模式、相关性偏差，并发现能源数据中的潜在依赖性，支持智能电网优化和政策制定；

•

展示计算机视觉技术与能源分析的结合，其中微调的VLLMs解释视觉能源数据，为智能建筑场景提供可操作的建议。

本文的结构如下。第2节描述了研究框架，包括数据预处理、使用GAF和MTF转换为3D图表以及通过微调创建VLLMs的过程。第3节和第4节展示了实验结果并讨论了这些发现的意义，第5节总结了贡献并提出了进一步研究的方向。

方法论

本节概述了一个多阶段分析框架，该框架结合了VLLMs和3D概率建模，以解码智能家居中的能源消耗模式。该方法结合了GAF和MTF转换，实现了设备级别的功率流的空间表示、设备功率消耗的相关性分析以及潜在模式的识别和异常检测。选择GAF和MTF是因为它们能够将复杂的时间数据转换为可空间解释的格式

结果

本节使用各种可视化模型和预测方法分析了能源消耗模式，包括1D、2D和3D表示。结果分为多个小节，每个小节关注能源消耗的不同方面以及设备与环境因素之间的相关性。每个小节都遵循一致的格式：首先提出一个分析问题，然后展示相应的

讨论

基于现有的视觉编码和多模态分析技术，GAF和MTF转换与VLLMs的结合在解码智能建筑应用中的能源消耗模式方面表现出色。结果表明，用GAF和MTF编码的3D可视化克服了时空依赖性的传统限制，能够准确检测异常的消耗模式和微妙的相关性。通过将1D时间序列数据转换为3D空间格式

结论

本研究提出了将3D视觉编码技术（GAF/MTF）与VLLMs相结合的方法，专门用于解码智能建筑环境中的时空能源消耗模式，通过系统评估证明了其优越性。数据收集自2024年1月10日至2024年10月的10个月期间，监测了校园三个区域的七台连接到物联网的设备。通过将原始时间序列数据转换为结构化的3D

作者声明

阿明·贝查尔（Amine Bechar）：概念化、形式分析、方法论、写作——审稿与编辑。

阿贝斯·阿米拉（Abbes Amira）：资金获取、写作——审稿与编辑、项目管理、监督。

阿德尔·奥莱夫基（Adel Oulefki）：概念化、形式分析、方法论、写作——审稿与编辑、项目管理、监督。

亚辛·希穆尔（Yassine Himeur）：概念化、形式分析、方法论、写作——审稿与编辑、项目管理、监督。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文所述的工作。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号