VisionEV：利用卫星图像进行空间感知的电动汽车充电需求预测的多模态大型语言模型

《TRANSPORTATION RESEARCH PART D-TRANSPORT AND ENVIRONMENT》：VisionEV: multimodal large language models for spatially aware electric vehicle charging demand prediction using satellite imagery

【字体：大中小】 时间：2025年11月08日 来源：TRANSPORTATION RESEARCH PART D-TRANSPORT AND ENVIRONMENT 7.7

编辑推荐：

　　VisionEV通过整合卫星图像和结构化文本数据，构建了多模态大语言模型框架，用于预测电动汽车充电需求，解决了传统方法依赖人工现场调查和手动特征工程的局限性。该框架利用预训练的视觉-语言模型（如PaliGemma）提取卫星图像中的空间模式（如土地利用、建筑密度），并通过自然语言提示编码结构化数据（如交通流量、季节因素），在共享嵌入空间中融合多模态信息，实现高效推理。实验表明，VisionEV在真实数据集（堪萨斯城，28,566样本）中表现优于LightGBM、GCN等基线模型，全量数据下RMSE和MAE分别降低1.0%和5.3%，且在少样本、零样本及跨区域场景中均展现出强泛化能力，消融实验证实视觉输入、提示设计和轻量级微调均为关键组件。研究为规模化、低成本电动汽车基础设施规划提供了新方法。

　　本文介绍了VisionEV这一基于多模态大语言模型（LLM）的框架，该框架旨在通过卫星影像和结构化文本数据来预测电动车辆（EV）充电需求。在电动车辆普及加速的背景下，政府和产业界正在优先考虑脱碳和可持续交通。然而，基础设施规划面临诸多挑战，尤其是充电站的战略部署。准确预测充电需求对于确保基础设施投资与实际使用模式相匹配至关重要，这不仅有助于在需要的地方和时间建设充电站，还能够帮助充电服务提供商高效分配资源，减少排队现象，并缓解驾驶者的续航焦虑。同时，从能源系统角度看，充电需求预测有助于电网运营商管理由电动车带来的时空变化负荷，防止局部配电网瓶颈。

在实际操作中，EV基础设施规划通常依赖于人工专家进行现场审计，并手动定义空间特征。这种方法虽然有效，但存在两大局限性：首先，它需要大量人力、时间和资金投入，限制了规划者可评估的候选地点数量；其次，其主观性和随意性可能导致关键空间特征被遗漏或不一致地量化，从而削弱了规划数据的可靠性和可比性。因此，研究者们正在探索更高效、自动化的方法，以提升充电需求预测的准确性和可扩展性。

VisionEV的提出正是为了应对上述挑战。该框架通过引入自动化空间推理流程，将候选地点的卫星影像作为视觉输入，使模型能够直接从影像中学习细微的空间模式，而无需依赖预定义的描述符。同时，它将站点级别的属性，如交通流量和时间指标，嵌入到领域相关的文本提示中，以模拟规划者的推理过程。VisionEV的核心技术挑战在于如何在语义上不同的输入（结构化文本数据和感知视觉上下文）之间实现连贯推理。为此，VisionEV将任务重新表述为多模态文本生成，通过视觉引导的提示和轻量级领域自适应微调，使两种模态在共享的嵌入空间中对齐。

在实际应用中，VisionEV利用来自密苏里州堪萨斯城189个公共充电站的22,852个训练样本和2,858个测试样本进行评估。在全量训练数据（full-shot）条件下，VisionEV实现了RMSE为2.87、MAE为1.98的高精度，分别比最强基线模型LightGBM高出1.0%和5.3%。此外，VisionEV在少量数据（few-shot）、城市内零样本（within-city zero-shot）和跨区域空间验证（cross-region spatial hold-out）实验中展现出强大的泛化能力。通过消融研究，进一步确认了视觉输入、提示设计和微调对模型性能的贡献。这些结果突显了多模态LLM在支持可扩展、数据驱动的EV基础设施规划中的潜力。

本文的核心贡献包括：首先，实现了自动化感知空间表示，VisionEV是首个通过公开卫星影像（如Google Maps API）替代人工现场访问的EV需求预测模型，使模型能够学习土地利用混合、建筑密度和可及性等特征，而无需手工定义的地理特征。其次，提出了统一的多模态推理架构，将充电需求预测重新表述为多模态文本生成任务，并通过领域特定的提示工程将视觉嵌入与结构化站点属性融合，使模型能够在单次前向传递中进行感知与语义联合推理。第三，引入了轻量级、领域自适应的微调策略，采用余弦学习率调度，在短时间内高效注入EV特定知识，同时保留通用的视觉语言能力，从而在有限计算成本下实现高精度预测。第四，通过全面的实证验证，包括全量训练数据的基准测试、少量数据、零样本和跨区域空间验证，展示了VisionEV在大规模站点筛选中的优越性和可扩展性。第五，提供了基础设施规划的实用价值，通过自动化空间特征提取和消除人工审计，使规划者能够评估更多的候选站点，从而在数据稀缺地区加速公平和成本效益的充电部署。

本文的其余部分组织如下。第二部分回顾了EV充电需求预测的相关研究，以及基于LLM的预测方法。第三部分详细描述了所提出的建模框架，包括多模态推理架构、自动化的视觉空间特征提取、结构化提示工程和轻量级微调策略。第四部分通过堪萨斯城的案例研究，评估了模型在不同实验设置下的性能，并进行了针对性的消融研究，以量化文本提示、卫星影像整合和微调策略的具体贡献。第五部分总结了研究发现，并展望了未来的研究方向。

在回顾相关研究时，文献表明EV充电需求预测的方法经历了从线性统计模型到机器学习、深度学习，再到图神经网络（GNN）和最近的多模态框架的演变。早期的研究依赖于统计方法，如自回归积分移动平均（ARIMA）和其季节性变体（SARIMA），这些方法用于建模线性时间依赖性。然而，随着电动车采用量的增长，这些方法在处理非线性关系、稀疏站点使用数据和尖峰模式时表现出局限性。随后，研究者转向经典机器学习模型，如支持向量回归（SVR）、随机森林和梯度提升树（如XGBoost），这些模型在处理不规则模式方面表现出更好的性能。然而，这些模型仍然需要手动选择变量，如时间、天气和位置，这既耗时又需要专业知识。

深度学习方法，尤其是循环神经网络（RNN）和长短期记忆网络（LSTM）模型，成为捕捉电动车使用数据时间依赖性的主流范式。LSTM模型在短期充电负荷预测中优于传统方法，特别是在捕捉季节性和长期模式方面。一些变体，如门控循环单元（GRUs）和混合CNN-LSTM架构，进一步提升了准确性，通过结合局部特征提取和序列学习。尽管这些模型在建模时间序列数据方面表现出色，但大多数模型仍以站点为独立单元或需要预定义的空间聚类，这限制了它们捕捉复杂地理关系的能力。

近年来，图神经网络（GNN）的发展使得更明确的空间依赖关系建模成为可能。在这些方法中，站点被表示为图节点，边表示物理或功能上的邻近性。时空GNN，如结合时间层的图卷积网络（GCNs），在处理相邻站点的共享模式时表现出色，从而超越了LSTM模型。一些扩展，如自适应图学习（例如从潜在相关性构建邻接矩阵），旨在克服固定图结构的僵硬性。尽管GCN模型在编码网络关系方面表现出色，但它们仍然依赖于人工定义的输入，如道路网络、距离阈值或功能邻近性，这限制了它们学习高层空间语义（如邻里类型或土地利用变化）的能力。

最近的研究前沿重新构想了EV需求预测任务，将其视为自然语言或多模态学习任务。大语言模型（LLMs）的独特优势在于，它们可以通过统一的语义空间对异构数据进行推理。例如，Qu等人（2024）引入了ChatEV，该模型将EV需求预测重新表述为文本到文本生成任务。通过将结构化特征（如定价、天气和占用率）嵌入文本提示中，ChatEV利用了Transformer模型的语义灵活性，提高了泛化能力。混合架构进一步扩展了LLM的能力，例如将GNN与LLM结合以增强EV优化任务中的空间推理能力。在这种设置中，GNN编码站点之间的关系，而LLM管理顺序决策——突显了跨领域整合的潜力。然而，这些模型仍依赖于经过精心策划的文本或图表示空间，且未完全解决从原始环境输入中自主提取空间上下文的挑战。

多模态方法的出现填补了这一空白，通过将结构化站点属性与非结构化输入（如卫星影像）结合，提高了EV需求预测的准确性。尽管该领域的研究仍处于初级阶段，但相关领域（如遥感和城市规划）的进展表明了其潜力。例如，遥感和城市规划研究已经利用卫星影像推断土地利用、停车可用性和城市环境特征。通过利用多模态LLM（如PaliGemma），将这些视觉信息整合到EV需求模型中成为可能，从而使得预测任务能够通过感知空间上下文得到改进，而无需手动编码空间特征。

综上所述，文献显示了从线性统计模型到机器学习、深度学习和图模型的逐步演进。每个阶段都提升了建模能力和对EV充电行为复杂动态的理解能力。然而，大多数现有方法仍然依赖于人工定义和提取的空间表示，无论是通过特征、图还是聚类。最近的LLM和提示工程研究开始在统一语义空间中解决异构性问题，但空间上下文仍然需要手动编码。本文的研究填补了这一空白，通过引入VisionEV，一个基于多模态LLM的框架，将卫星影像和结构化数据结合，从而实现对EV充电需求的自动化预测。

VisionEV的框架设计是城市无关的，它仅需要全球可访问的输入，如公共卫星影像（例如Google/Bing/OSM来源）、区域级交通指标（如AADT、出行生产或其代理）和时间描述符，这些在大都市区中通常都可以获得。多模态骨干网络是在大规模、多样化的图像-文本语料库上预训练的，这为跨领域迁移提供了强大的先验知识。此外，轻量级微调策略允许模型在仅有少量本地样本的新地区快速适应。

在实现细节方面，VisionEV采用了一种结构化的、轻量级的微调方法，专门设计用于高效地将多模态预训练表示适应于EV基础设施规划的独特空间语义特征。不同于从头开始训练，VisionEV利用了PaliGemma的预训练模型权重，其中预训练的视觉编码器（SigLIP）参数保持冻结以保留其稳健的视觉表示。相反，线性投影矩阵（如Eq. (4)所示）、文本嵌入层和Transformer解码器参数则进行微调，从而实现针对EV特定预测任务的针对性适应。

这种微调策略对于VisionEV在不同数据场景下的表现至关重要。在少量数据（few-shot）设置中，仅提供有限的训练数据（例如5%至20%），VisionEV通过短周期微调迅速将预训练的多模态表示与EV特定模式对齐，从而能够从稀疏数据集中提取关键的空间语义信息。相反，在零样本（zero-shot）设置中，VisionEV依赖于其预训练的视觉和文本嵌入的泛化能力。通过冻结视觉编码器并利用预训练层的语义先验，VisionEV能够在没有本地数据的情况下准确预测未见过的地点的需求，从而展示其在多种空间上下文中的强大泛化能力。

在实验设置方面，所有实验均在受控的Linux环境中进行，使用Google Colab Pro，配备单个NVIDIA L4 GPU（24GB VRAM）。这种硬件配置支持对大规模多模态LLM的高效微调，同时保持学术和原型开发的可访问性和可重复性。训练流程使用JAX，一种高性能数值计算库，以及BigVision框架，后者优化了大规模多模态模型的训练和评估。

VisionEV的微调基于公开可用的PaliGemma-3B检查点，其中包括SigLIP视觉编码器和基于Gemma的文本解码器。该模型因其在多模态推理任务中的强大表现和对结构化与非结构化输入的兼容性而被选中。优化过程采用随机梯度下降（SGD）结合余弦学习率调度。初始学习率设置为0.005，并在前10%的训练步骤中应用线性预热策略以稳定早期收敛。

训练进行了200个周期，批量大小为64，模型性能每10个训练步骤通过保留的验证集进行评估。所有卫星影像都预处理以匹配模型的预训练配置——具体来说，被调整为224×224像素并标准化为与初始SigLIP训练相同的均值和标准差。这确保了预训练与下游微调之间的对齐，对于保持泛化性能至关重要。文本输入使用了嵌入在骨干LLM中的SentencePiece分词器。每个输入序列遵循结构化的前缀-后缀格式，其中前缀嵌入上下文信息（如站点规划特征），后缀表示目标预测。我们采用最大长度为256个标记的配置，应用完整的注意力机制处理前缀（即编码器风格），并采用因果注意力机制处理后缀（即解码器风格）。这种配置与典型的编码器-解码器训练方案相匹配。模型使用负对数似然（NLL）损失进行优化，该损失基于后缀标记计算，这些标记对应于预测的每周充电需求作为离散数值标记。

在多模态和结构化数据的整合方面，VisionEV通过将卫星影像和结构化文本提示转换为统一的多模态输入序列，实现了对EV充电需求的高效预测。这种多模态嵌入和生成框架使得模型能够对异构数据类型进行有效推理，捕捉EV需求预测中固有的空间-上下文复杂性。与传统的回归方法相比，VisionEV提供了更优越的可解释性和鲁棒性，使其特别适合基础设施规划。

在消融研究中，我们系统地移除了VisionEV的每个核心组件，以评估其单独贡献。具体来说，我们评估了四个模型变体：（1）无卫星影像，仅使用结构化元数据；（2）无提示，保留所有特征输入；（3）无微调，直接使用原始预训练的PaliGemma模型；（4）无预训练，从头开始训练。所有消融测试结果均在全量、少量和零样本场景下报告。少量样本指标是5%、10%、15%和20%训练数据的平均值，而零样本指标是20%、40%、60%和80%站点采样比例的平均值。详细结果汇总在表4中。

从表中可以看出，移除VisionEV的任何组件都会导致预测性能的下降。移除预训练导致最严重的性能退化，平均RMSE和MAE分别增加到9.57和7.02。这确认了LLM预训练在为模型提供通用语言和推理能力中的基础作用，特别是在资源有限（few-shot/zero-shot）设置中。同样，禁用微调导致显著的性能下降（平均RMSE：4.46，MAE：3.34），这证明了下游适应在将模型与EV充电行为对齐中的必要性。

移除提示机制也会降低性能（RMSE：3.43，MAE：2.43），但影响较小。这突显了自然语言提示在帮助模型以与LLM的预训练分布对齐的方式结构化输入特征（如交通流量和季节性）的重要性。这种消融研究还提供了对提示敏感性的定量鲁棒性检查，证明了VisionEV的性能受到文本提示的存在和设计的影响。最后，排除卫星影像输入导致中等程度的性能下降（RMSE：3.95，MAE：2.84），确认了视觉空间信息提供的宝贵补充信号——如土地利用、周围基础设施和城市密度——这些信号通常难以通过表格特征单独编码。这一结果不仅突显了空间视觉信息的互补价值，还为VisionEV中由SigLIP编码器提取的非结构化视觉特征的相关性提供了定量验证。

综上所述，消融研究验证了VisionEV中每个组件的协同整合。卫星影像为感知空间提供了基础，提示设计引入了语义结构，微调使模型能够适应EV需求预测领域，而预训练则为模型提供了基础的学习先验。全模型，结合所有四个组件，实现了所有评估设置中的最佳性能，进一步证明了我们多模态框架的设计选择。

此外，为了进一步评估VisionEV的空间泛化能力，我们在堪萨斯城内进行了跨区域空间验证。充电站被分为两个地理上不同的区域：（1）市中心核心区域，以密集的商业和混合用途开发为特征；（2）郊区外围区域，主要由住宅和工业用地组成。在堪萨斯城的189个公共充电站中，91个位于市中心核心区域（如图4-b所示），其余位于郊区外围。相应地，总共有28,566个站点-周样本，其中13,649个来自市中心站点，14,917个来自郊区站点。

我们采用了一种严格的跨区域评估方法，其中训练数据来自一个区域（如市中心），而测试数据来自另一个区域（如郊区），然后反转这一划分形成两折交叉验证。这一设计确保了训练和测试区域之间没有空间重叠，减少了来自附近站点的信息泄露，并诱导了建筑形式、土地利用和交通上下文的显著分布变化，从而近似模拟了跨城市部署。如表5所示，VisionEV在这一严格离域评估中保持了强大的预测性能。当训练市中心站点并测试郊区区域时，VisionEV实现了RMSE = 3.44和MAE = 2.42，分别比最强基线LightGBM（RMSE = 3.52 / MAE = 2.63）高出21.4%和25.8%。当方向反转——训练郊区站点并测试市中心区域时，VisionEV获得了RMSE = 3.41 / MAE = 2.40，同样优于LightGBM（RMSE = 3.46 / MAE = 2.54）和其他基线模型。这一结果表明，VisionEV在面对空间分布变化时具有较强的鲁棒性，并能有效泛化到未见的城市区域。尽管两个区域都位于同一都市圈内，但市中心核心区域和郊区外围区域在建筑形式、土地利用和交通上下文上存在显著差异；因此，训练和测试这两个区域相当于跨城市部署。结合少量数据和零样本实验，这一空间验证为VisionEV的跨区域迁移能力提供了实证证据，并支持其在大规模、数据稀缺基础设施规划中的适用性。

在计算成本和部署可行性方面，我们的微调仍然轻量级：视觉编码器被冻结，只有投影器和解码器被更新，这使得训练周期短且内存需求低。在推理阶段，VisionEV执行一次批量解码，仅输出一个数值标记，因此延迟主要由视觉前向传递和批量大小决定。在Colab L1 GPU上，处理完整的验证集（2,856个样本）完成时间为413秒（约6.92个样本/秒，约0.145秒/样本）。线性外推表明，处理10,000个站点需要大约24分钟（在缓存前）。实际上，我们预计算并缓存每个站点的卫星影像嵌入（一次性成本），之后每周或每月评分只需文本刷新（季节/周）和一个简短的解码步骤，进一步降低运行时间。

从硬件角度来看，推理只需要≥8GB的VRAM，而轻量级微调在～24GB VRAM下是可行的。两种部署模式与规划工作流程相匹配：一种是离线批量评分，用于选址和调整规模，通过缓存嵌入大幅降低重复计算成本；另一种是轻量级云API（例如一个小的GPU实例），提供REST端点以实现按需评分，这可以与现有的仪表板和数据管道无缝集成。从运营角度来看，这种设计通过避免重复的特征工程、减少重新调整，并支持政策输入或选址标准变化时的few/zero-shot更新，从而降低了总拥有成本（TCO）。实际上，即使平均RMSE/MAE提升幅度不大，一个避免的错误选址（如六位数的建设成本）也可能超过增量计算的成本。如果唯一目标是在静态、完全标记的数据集上实现最小的总误差，一个良好调整的表格模型（如LightGBM）可能就足够了；然而，VisionEV在面对空间变化、数据稀疏、假设变化或高特征管理成本的情况下，提供了更大的价值——这些条件在可扩展、公平的EV基础设施规划中非常常见。

最后，本文结论部分强调了VisionEV在EV基础设施规划中的实用性和广泛适用性。通过将结构化规划数据与卫星影像结合，VisionEV能够同时处理自然语言提示（编码站点级别的元数据，如交通流量和季节性）和高分辨率卫星影像（捕捉每个充电站周围的空间上下文）。该架构结合了冻结的SigLIP视觉编码器和解码器为主的语言模型，并采用轻量级微调策略，使用余弦学习率调度。这种设计使模型能够高效地将预训练表示适应到EV需求预测领域，从文本和视觉信号中学习，而无需手动定义的空间特征或从头开始的大规模训练。

在堪萨斯城的真实数据集上进行的实证评估确认了VisionEV在多种操作环境中的鲁棒性、适应性和准确性。该模型在全量、少量和零样本场景中均优于经典统计方法、先进深度学习模型和单模态LLM基线。特别是，VisionEV在数据稀疏的环境中展现出强的样本效率和对未见空间上下文的可靠泛化能力，这是大规模、实际部署的关键要求。消融研究进一步验证了提示设计、卫星影像整合、预训练和微调的重要性。

尽管本文的案例研究集中在堪萨斯城，由于该城市具有同步的充电日志、交通指标和高分辨率卫星影像，但VisionEV框架的设计是全球适用的。其输入模态和多模态骨干网络广泛可获取且可迁移。少量数据、零样本和空间验证共同展示了VisionEV对未见城市区域的泛化能力。重要的是，本研究的重点是量化多模态的边际价值，而不是全面排名多模态骨干网络：我们包括了使用相同提示（不含影像）的文本单模态LLM基线（如Gemma），并为非视觉基线（如LR/LightGBM/GCN）补充了站点级别的土地利用指标，从而能够更清晰地看到影像对预测性能的贡献。下一步，我们将扩展基准测试，包括由ViT初始化和基于CLIP的编码器，以及最近的视觉语言模型，以提供对多种多模态设计的更全面的性能和鲁棒性评估。未来的工作还将扩展分析到多个城市，以明确研究跨城市可扩展性和领域适应性。总体而言，这些结果使VisionEV成为一种实用、通用且数据高效的工具，可用于大规模、响应式和成本效益高的EV基础设施规划。

热点排行