葡萄牙马德拉岛光伏产消者净负荷与太阳辐射纵向数据集:支撑智能电网研究的高分辨率开放数据
《Scientific Data》:Longitudinal Dataset of Net-load, PV Production and Solar Irradiation from Madeira Island, Portugal
【字体:
大
中
小
】
时间:2025年11月29日
来源:Scientific Data 6.9
编辑推荐:
本研究针对分布式光伏快速发展背景下缺乏高质量产消者数据的瓶颈问题,发布了PTProsumer数据集。该数据集采集自葡萄牙马德拉岛24个产消者(家庭、公寓、商业),包含1秒分辨率的净负荷与光伏产量数据(约38.9亿数据点)及1分钟分辨率太阳辐射估算。数据集支持光伏自消费优化、灵活性管理、电网韧性等研究,为欧洲岛屿能源系统研究提供了独特的多类型、长时序、高精度数据资源。
随着全球能源转型的加速推进,分布式光伏发电正以前所未有的速度融入电力系统。特别是在欧洲,截至2024年装机容量已达338吉瓦(GW),但令人关注的是,户用屋顶光伏安装量却出现了下滑,较前一年减少近5吉瓦,仅达12.8吉瓦。这一现象背后,除了补贴政策收紧和电网接入延迟等技术性因素,日益增加的监管不确定性——包括对自消费和余电上网的限制——正严重影响着家庭投资光伏的经济可行性。
这一现实凸显了分布式能源精细化管理的迫切需求。电力系统需要针对不同特性的产消者制定差异化策略:对需求波动大的用户侧重需求响应,而对发电频繁过剩的用户则需优化储能或出口机制。然而,实现这一目标面临核心挑战——缺乏高质量、长周期的产消者实测数据。现有公共数据集如美国的PecanStreet虽规模较大,但获取受限;其他数据集则存在监测时长不足、采样频率低或站点数量有限等问题。
在此背景下,由Lucas Pereira、Diogo Monteiro等研究人员组成的团队在《Scientific Data》上发表了题为“Longitudinal Dataset of Net-load, PV Production and Solar Irradiation from Madeira Island, Portugal”的研究论文,推出了PTProsumer数据集,为破解数据瓶颈提供了重要解决方案。
研究团队采用Carlo Gavazzi智能电表(EM111、EM112、EM340三种型号)在马德拉岛24个产消者站点(包括17户住宅、4套公寓、1个办公室、1家餐厅和1个供应商)部署监测系统。电表通过RS485协议与树莓派3网关连接,以1秒间隔采集电压、电流、有功功率(P)、无功功率(Q)、视在功率(S)、功率因数(PF)和频率等参数。数据每分钟同步至在线数据库,并每日生成CSV文件存档。太阳辐射数据来自哥白尼大气监测服务(CAMS),提供1分钟分辨率的全球水平辐照度(GHI)、散射水平辐照度(DHI)等参数。所有参与者均签署知情同意书,研究获SMILE项目伦理委员会批准。
数据覆盖周期从3个月至5年不等(2018年3月至2023年12月),累计约38.9亿个数据点。光伏数据经过后处理,使用Astral Python包根据日出日落时间校正夜间异常值。数据集按站点和年份组织,包含元数据表详细记录各站点特性、监测周期和数据完整性(多数站点完整度超90%,公寓类站点因WiFi连接问题完整度较低)。
净负荷数据展现出显著的产消者行为差异。部分站点(如PR_2、PR_8、PR_15)频繁出现负净负荷(电力输出大于消耗),而PR_21、PR_23等站点则保持持续正净负荷。最大净负荷值超过10千瓦(kW),变异系数高的站点(如PR_3、PR_21)标准差接近或超过1kW,反映用电商峰谷差异显著。
光伏产量方面,各站点均值从150瓦(W)至830W不等,最大峰值超3000W(PR_2、PR_9、PR_11等)。数据分布呈现明显右偏,中位数远低于最大值,说明高峰值发电为偶发现象。标准差相对均值普遍较高,印证光伏发电的日内和日间波动性。
太阳辐射数据显示,24个站点的GHI均值介于6.3-7.3W/m2,标准差4.5-5.2W/m2,表明区域内太阳能资源分布均匀,产量差异主要源于光伏系统本身特性(如板型、逆变器效率、安装方位角、倾角、遮挡等)而非辐照度差异。
数据可用性图显示不同站点的监测连续性和缺失情况。长期监测站点如PR_9(住宅)和PR_14(公寓)持续至2023年底,而PR_8(住宅)仅三个月。值得注意的是,监测时长与数据完整性非正相关:PR_17(公寓)近五年监测期完整度仅27.2%,而短期站点PR_8达98.20%。PR_3(餐厅)和PR_20(住宅)在四至五年监测中保持近99%的完整度,体现高质量数据采集。
数据集以gzip压缩的CSV格式发布,支持Python(pandas、gzip)、MATLAB(readmatrix)和R(read.csv)等工具处理。时间戳统一采用UTC,规避马德拉岛夏令时(WET/WEST)转换问题,可通过pytz库(时区设为"Atlantic/Madeira")恢复本地时间。研究团队提供解压和分析示例代码(decompress_data.py、analyze_data.ipynb),建议大数据量处理时采用并行计算。
数据集未包含光伏板方位角、倾角、遮挡物等现场信息,限制了对产量变化的归因分析。辐射数据源自CAMS模型,缺乏现场辐射计验证。未来工作可增加实地辐射测量,或对比Forecast.Solar等预测服务,提升辐照数据准确性。此外,数据采集期涵盖COVID-19封锁阶段(2020年3月19日至5月3日),期间用电行为可能呈现非常态特征。
PTProsumer数据集通过提供高分辨率、长时序、多类型的产消者实测数据,为智能电网背景下分布式能源集成研究提供了宝贵资源。其1秒级采样能力支持从秒级动态分析到15分钟或小时级聚合的灵活研究需求,已成功应用于PV-BESS(光伏-储能系统)技术经济分析、储能容量配置、可解释AI光伏预测、联邦学习弹性市场等前沿研究。作为欧洲岛屿能源系统的代表性数据,该数据集将持续推动分布式能源管理、需求侧响应和能源社区建模等领域的方法创新与实证研究。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号