编辑推荐:
为解决全球光伏(PV)数据集缺乏全面、及时和精确性,限制 PV 潜力空间分析的问题,研究人员开展了全球 PV 面板识别方法研究。他们构建两阶段分类框架,生成 2019 - 2022 年全球 20 米分辨率数据集,其精度超 90%,为 PV 研究和决策提供有力支持。
在全球能源转型的浪潮中,太阳能光伏发电因其资源丰富、清洁环保,成为应对能源危机、实现可持续发展的关键力量。据国际能源署(IEA)数据,2022 年全球新增光伏装机容量达 133GW,累计装机容量高达 843.0GW,预计 2023 年全球可再生能源装机容量将比 2022 年增长 50%,未来五年还将迎来快速扩张期。随着光伏产业蓬勃发展,准确获取光伏电站的位置、规模、容量和发电量等地理空间和电力信息,对评估光伏潜力、制定科学政策至关重要。
然而,当前的光伏研究却面临着数据困境。现有的光伏映射数据集,要么空间范围有限,如仅涵盖中国或美国部分地区的数据集;要么更新不及时,无法反映光伏产业的动态变化。这使得研究人员在分析全球光伏面板规模、发展变化和发电情况时,常常缺乏关键的空间数据支持。许多研究只能从社会经济和国家政策层面总结光伏发展趋势,难以从地理空间角度深入探究光伏发展的时空变化规律。比如,以往公开的全球光伏电站位置数据,像 Global_Wind_Solar_2020,虽包含部分信息,但缺乏光伏面板的规模可视化信息,在使用上存在局限性。而基于机器学习和深度学习的遥感监测方法,虽有一定成效,但也面临样本依赖、数据存储和计算能力受限等问题。因此,开发高精度、高时效性且长时间序列的全球光伏面板数据集迫在眉睫。
为了解决这些问题,北京师范大学的研究人员展开了深入研究。他们提出一种创新的两阶段分类框架,将深度学习与机器学习相结合,旨在克服光伏提取中样本选择困难、识别方法低效以及现有数据集缺乏时效性等难题。最终,研究人员成功生成了 2019 - 2022 年全球 20 米分辨率的光伏面板数据集,并将研究成果发表在《Scientific Data》上。这一数据集为从地理空间角度研究光伏发展提供了关键的数据支持,有助于推动全球光伏产业的科学规划和可持续发展。
在研究过程中,研究人员主要运用了以下关键技术方法:首先,利用高分辨率(0.6m)的谷歌地球(GE)图像和 U - Net 模型进行第一阶段分类。U - Net 模型在遥感图像特征分割方面表现出色,通过对标注的光伏样本集进行训练,能够从 GE 图像中提取出大量准确的光伏多边形样本,为后续阶段提供训练样本。其次,采用正无标签学习随机森林(PUL - RF)算法对 Sentinel - 2 图像进行第二阶段分类。PUL - RF 结合了随机森林(RF)的高精度、高效率和正无标签学习(PUL)技术,能避免对大量标注负样本的需求,有效从 Sentinel - 2 多光谱数据中提取光伏像素。此外,研究还引入了两级分区策略,根据全球气候分区将地球划分为不同区域,再进一步细分,以适应不同地理条件下光伏和非光伏特征的差异,提高分类准确性。
下面来看具体的研究结果:
- 数据与数据预处理:研究使用了多种地理信息数据集,如 Global Solar 2020 和 Wiki - Solar dataset 提供光伏电站潜在位置;高分辨率标注光伏样本集用于训练 U - Net 模型;GE 图像用于生成 PV 样本;Sentinel - 2 数据用于第二阶段分类;GlobeLand30 土地覆盖数据集辅助采样;验证数据用于评估分类精度。通过对这些数据的收集、整理和处理,为后续的分类和分析奠定了基础。
- 两级分区:考虑到全球地理条件的差异,研究提出两级分区策略。第一级根据 IPCC AR6 WGI 的全球气候分区方法进行分区,选择光伏正样本;第二级将每个主分区进一步划分为 4°×4° 的网格,形成子分区。这种分区方式有助于减少不同地理条件下光伏和非光伏特征的类内变异性,提高分类的准确性和稳定性。
- 两阶段分类框架:第一阶段,利用 U - Net 模型从 GE 图像中生成光伏样本。将标注样本集分为 70% 训练集和 30% 验证集,训练得到最优 U - Net 模型,用于提取全球 GE 图像中的光伏多边形,这些多边形作为第二阶段分类的训练样本。第二阶段,运用 PUL - RF 对 Sentinel - 2 时间序列图像进行分类。通过计算多种光谱指数,如 NDVI、NDBI、NSPI - 1 和 NSPI - 2 等,增强光伏分类的光谱特征。同时,为每个子分区建立特定的训练样本集,通过分层随机采样获取大量未标注样本,并从主分区获取正样本,训练 PUL - RF 分类器。经过多次训练和平均处理,最终得到 2019 - 2022 年全球 20 米分辨率的光伏面板数据集。
- 后处理与精度评估:对第二阶段分类结果进行膨胀腐蚀卷积后处理,有效去除误分类的线状地物。在精度评估方面,第一阶段使用训练精度、验证精度、交并比(IoU)和平均精度(AP)评估 U - Net 模型;第二阶段使用总体精度(OA)、F1 分数、生产者精度(PA)和用户精度(UA)评估 PUL - RF 模型。评估结果显示,U - Net 模型的各项精度指标均超 98%,PUL - RF 模型的各项指标均超 97%,新数据集的 IoU 超 90%,高于 Kruitwagen 数据集,表明该研究方法具有较高的准确性和稳定性。
- 数据记录与分析:生成的全球光伏面板数据集以 TIFF 格式存储,公开托管在 Zenodo 和 GEE 平台上,验证数据和其他相关数据也分别存储在相应平台。通过对数据集的分析发现,2019 - 2022 年全球光伏面板面积增长超 60%,中国的光伏面积和增长量最大。全球光伏主要集中在中低纬度地区和人口密集区域,发展中国家的光伏面积和新增量均高于发达国家。
研究结论表明,该研究成功构建了高效的两阶段分类框架,生成了高质量的全球光伏面板数据集。这一数据集在精度和空间细节上优于现有数据集,能够准确反映全球光伏的时空变化特征。通过分析数据集,揭示了全球光伏的发展趋势和分布特点,为光伏产业的规划、政策制定以及科学研究提供了重要的数据支撑。同时,研究也指出,对于较小规模的分布式和屋顶光伏,由于 Sentinel - 2 图像分辨率的限制,识别结果存在一定误差,未来需考虑使用更高分辨率的遥感图像或改进估计方法来解决这一问题。总之,该研究成果为全球光伏产业的可持续发展提供了有力的支持,具有重要的理论和实践意义。