面向智能配电网的分布式可再生能源场景集DDRE-33:大规模合成数据集构建与验证
《Scientific Data》:A Large-Scale Dataset of Distributed Renewable Energy Scenarios on the IEEE-33 Bus Network
【字体:
大
中
小
】
时间:2025年12月21日
来源:Scientific Data 6.9
编辑推荐:
【编辑推荐】针对分布式可再生能源(DRE)并网带来的不确定性挑战,本研究开发了与IEEE-33标准配电网兼容的大规模场景数据集DDRE-33。该数据集通过扩散模型生成包含时空相关性的风电/光伏联合场景,提供2000个单节点时序和300个标注场景,解决了现有数据集集中式特性强、缺乏分布关联性的问题,为配电网优化调度、潮流分析等研究提供了标准化数据基础。
随着全球能源转型加速,分布式可再生能源(Distributed Renewable Energy, DRE)在配电网中的渗透率持续攀升。这些分散在用户侧的小规模风电、光伏资源,虽然有利于清洁能源就地消纳,但其固有的间歇性和强随机性,也给配电网的安全稳定运行带来了巨大挑战。想象一下,当一片云飘过居民区的屋顶光伏,或者一阵风突然改变方向影响社区小型风机时,整个局部电网的功率平衡就可能被打破。正是这种"牵一发而动全身"的特性,使得对分布式可再生能源出力特性的精准刻画,成为现代配电网研究的关键基础。
然而,当前研究面临着一个尴尬的困境:虽然IEEE-33总线测试系统为配电网研究提供了标准化的拓扑结构,但与之匹配的高质量DRE场景数据却严重匮乏。研究人员不得不"东拼西凑"——有的使用描述大型集中式电站的数据集,这些数据无法体现分布式资源的小规模、高波动特性;有的采用家庭级监测数据,却又受限于样本数量少、数据缺失严重等问题。更棘手的是,现有数据往往缺乏对风电、光伏之间时空关联性的刻画,而这种关联性恰恰是理解区域性能源互补特性的关键。
为了打破这一数据瓶颈,西安交通大学陈宇轩等研究人员在《Scientific Data》上发表了题为"A Large-Scale Dataset of Distributed Renewable Energy Scenarios on the IEEE-33 Bus Network"的研究论文,正式发布了DDRE-33数据集。这项研究通过创新的数据生成技术和严格的质控流程,构建了首个与IEEE-33标准配电网深度兼容的大规模DRE场景数据集,为分布式能源研究提供了重要的基础设施支撑。
关键技术方法上,研究团队采用三阶段流程:首先基于中国南方电网真实DRE运行数据,结合专家监督的混合异常检测方法(IQR准则与孤立森林算法)进行数据预处理;然后利用条件扩散模型生成保持统计特征的大规模合成数据,该模型包含多尺度分解集成和特征幻觉(Feature Hallucination)模块;最后通过专家验证的采样流程构建时空关联场景,并映射到IEEE-33系统的指定节点(18、22、25、33总线)。
研究团队收集了南方电网分布式能源并网与智能配电网系统工程技术研究中心2022年7月至2023年6月的实际运行数据,采样间隔为15分钟。在预处理阶段,创新性地采用双专家监督机制:首先通过滚动窗口计算IQR(四分位距)范围[Q1-3×IQR, Q3+3×IQR]和孤立森林(Isolation Forest)算法并行标记异常点,所有疑似异常汇入专家审核日志;对于连续缺失值,16个样本以内的采用线性插值,更长缺漏由专家决策选择插值方法或相同时段均值填充。这种严谨的流程确保了基础数据的可靠性。
基于预处理后的真实数据,研究采用时间序列扩散模型生成合成数据。该模型通过多尺度集成模块保留原始序列的细粒度特征,特征幻觉模块结合条件去噪网络有效传递外部特征。关键创新在于利用不同天气条件和气候类型作为条件信息指导去噪过程,生成具有多样性的时间序列后,将相同条件下的风电、光伏序列组合成场景集并添加标签。每个批次需通过三项硬性指标验证:物理边界(功率值在[0.00,1.00]p.u.区间)、节点间空间相关性(光伏节点中位相关系数>0.50,风电节点>0.40)和时间相关性(峰值互相关系数ρmax≥0.50用于光伏对,ρmax≥0.40用于风电对)。
DDRE-33包含2000个分布式风电/光伏单节点时间序列和300个协调发电场景,数据以CSV格式存储,包含标幺值和实际输出值(基于安大略省30%可再生能源渗透标准计算)。标签系统设计科学:风电按季风型(春秋强、夏弱、冬最弱)、海洋型(冬强夏弱)、信风型(全年稳定)和极地型(冬极强夏极弱)分类;光伏按天气条件(晴朗/部分多云/阴雨)划分输出等级。场景标签进一步细分为低风速低波动、中风速中波动和高风速高波动等类型。
通过Wasserstein距离(风电0.0242、光伏0.0232)和KS统计量等指标验证了合成数据与真实数据的分布相似性。t-SNE可视化显示合成样本完全覆盖真实数据特征空间且具有更广的泛化范围。自相关分析证实了时序持续性(风电滞后1自相关0.958,光伏0.979)。空间互相关分析显示风电节点对在滞后1处相关系数达0.954,验证了场景集的时空耦合特性。聚类分析表明标签系统能有效区分不同气候类型下的发电模式,如Label 5(干旱气候)光伏几乎全年无低输出日,而Label 4(高原地区)冬季因降雪导致低输出日增多。
与GEFCom2014、Kaggle等常用数据集相比,DDRE-33实现了100%数据完备性,无缺失值或异常值。雨云图分析显示其值域均符合物理约束,而对比数据集存在超额定值或负值等异常。这种高质量特性使其特别适合需要连续时间序列的机器学习应用和高可靠性电力系统仿真。
研究结论表明,DDRE-33数据集成功填补了分布式可再生能源研究领域的数据空白,通过提供与标准测试系统兼容、具有明确时空关联性和丰富标注的场景数据,为配电网优化调度、随机最优潮流分析、深度学习模型开发等下游任务提供了即插即用的解决方案。讨论部分指出,未来工作将聚焦于更细粒度的场景划分和更丰富的标签体系构建。该数据集已通过figshare平台公开,相关代码已在GitHub发布,有望成为分布式能源领域研究的重要基准资源。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号