
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于聚类与功能数据分析的高效加权局部均值k近邻算法(FWLMkNN)及其在电力负荷曲线分类中的应用
【字体: 大 中 小 】 时间:2025年06月12日 来源:Expert Systems with Applications 7.5
编辑推荐:
为解决功能数据分类中隐藏模式识别难题,研究人员提出FWLMkNN算法,通过改进K-means目标函数优化子群划分,结合加权局部均值KNN分类,在意大利电力负荷季节分类中实现90.16%准确率,较传统方法提升1.16%,为智能电网管理等时序数据分析提供新范式。
随着智能电表等设备的普及,电力系统正面临海量时序数据处理挑战。意大利电网运营商Terna S.p.A.每天需分析数百万条负荷曲线,其中季节性模式识别直接影响电网调度策略。传统分类方法如标准功能KNN(FKNN)和随机森林在处理这类具有复杂时间依赖性的数据时,往往难以捕捉曲线间的细微形态差异。更棘手的是,负荷曲线常呈现非平稳特性——2020年新冠疫情封锁和2022年极端热浪等突发事件导致用电模式突变,使得常规分类器性能急剧下降。
针对这一难题,研究人员开发了FWLMkNN(Functional Weighted Local Means k-Nearest Neighbor)算法框架。该研究创新性地将无监督学习与监督学习相结合:首先通过改进的K-means聚类发现训练数据中的隐藏子群模式,再利用加权局部均值KNN进行精细分类。在意大利全国电网五年期负荷数据验证中,该算法展现出对非平稳数据的强大适应能力,其90.16%的分类准确率不仅超越XGBoost等主流方法,更通过子群识别功能为电网运营商提供了"极端夏季用电"等精细化模式标签。相关成果发表在《Expert Systems with Applications》期刊。
研究团队采用三项核心技术:1)基于B样条基函数(B-spline)的曲线功能化表示,将96维时序数据转化为24维特征;2)新型聚类目标函数Ψ,同时优化类内紧密度和类间分离度;3)加权局部均值距离度量,通过调整β参数(设为1.8)动态平衡特征权重。实验采用滚动窗口验证,以12个月训练、3个月测试的方式评估模型在时序数据上的真实表现。
【改进聚类目标函数】
传统K-means仅最小化类内方差,而研究提出的Ψ函数引入类间分离项Δwp(t)
,通过公式(12)计算加权距离时同时考虑子群中心与全局中心的差异。在意大利负荷数据中,该策略成功识别出冬季"节假日用电"(晚间峰值陡增)和夏季"极端高温日"(午间空调负荷突增)等关键子群。
【加权局部均值KNN】
如公式(25)所示,算法为每个子群计算k个最近邻的局部均值向量C?NN
gp
,再通过公式(26)的加权距离判定类别。这种设计使FWLMkNN对参数k的敏感性显著降低——如图4所示,当k在1-15间变化时,其错误率波动幅度比传统KNN小37%。
【实际应用验证】
案例研究显示,FWLMkNN在识别2020年疫情封锁期间的异常用电模式时表现突出。如表1所示,其90.16%的整体准确率较次优方法(XGBoost)提升1.16个百分点,在"肩季"(Shoulder Season)这类过渡期分类任务中优势尤为明显。更可贵的是,算法单次分类仅需200ms,满足电网实时调度需求。
这项研究为功能数据分类提供了新范式,其核心贡献在于:1)通过Ψ函数实现聚类与分类的协同优化;2)利用B样条基函数有效降维;3)开发出适用于工业级数据的轻量化算法。局限在于对基函数选择的依赖性,未来可探索自动基函数选择机制。该框架已扩展至心电信号(ECG200)和地震波分类,为医疗监测、灾害预警等时序数据分析领域提供了通用解决方案。
生物通微信公众号
知名企业招聘