基于局部熵与全局密度的鲁棒性异常检测方法EDROD研究

【字体: 时间:2025年06月06日 来源:Expert Systems with Applications 7.5

编辑推荐:

  针对现有异常检测算法难以同时识别点异常(point anomalies)和簇异常(cluster anomalies)且对参数K敏感的问题,研究人员提出融合样本依赖带宽核密度估计(KDE-SDB)与局部香农熵的熵密度比异常检测方法(EDROD)。实验表明,该方法在合成与真实数据集上均能高精度检测两类异常,并对近邻样本数K的选择具有强鲁棒性,为多场景异常检测提供了新思路。

  

在数据爆炸的时代,异常检测技术如同数据海洋中的探照灯,其核心任务是捕捉那些"与众不同"的样本。然而传统方法面临两大困境:一是难以兼顾孤立存在的点异常(如信用卡欺诈交易)和成团出现的簇异常(如工厂批量次品);二是广泛应用的K近邻(KNN)类方法对参数K的选择异常敏感,稍有不慎就会导致检测性能断崖式下跌。更棘手的是,簇异常中心样本的密度往往与正常数据相近,使得传统核密度估计(KDE)方法频频"漏网"。这些痛点严重制约了异常检测技术在医疗影像分析、工业质检等关键领域的应用。

针对这一挑战,中国研究人员提出名为熵密度比异常检测(EDROD)的创新方法。该方法巧妙融合了改进的核密度估计技术与信息论原理,通过计算样本的全局密度与局部熵比值构建综合异常指标。其中,样本依赖带宽核密度估计(KDE-SDB)策略为每个样本量身定制带宽参数,显著提升了密度计算的准确性;而基于马氏距离(Mahalanobis distance)的局部香农熵则有效刻画了数据分布的局部混乱程度。这种"全局密度观大势,局部熵察细微"的双重机制,使EDROD能同时捕获孤立点和异常簇的蛛丝马迹。实验证明,该方法在12个真实数据集上的综合性能超越KNN、局部离群因子(LOF)等传统方法,且对参数K的变化展现出惊人的稳定性。相关成果已发表于《Expert Systems with Applications》。

关键技术方法包括:1) 基于马氏距离的K近邻选择;2) 样本依赖带宽核密度估计(KDE-SDB)计算全局密度;3) 局部香农熵量化邻域不确定性;4) 熵密度比构建综合异常评分。研究采用合成数据集验证基础性能,并在涵盖医疗、工业等领域的12个真实数据集进行对比实验。

研究结果:

  1. 有效检测两类异常:通过KDE-SDB计算的密度可有效区分正常样本与点异常(如O2
    、O3
    ),而局部熵能识别密度相近但分布异常的簇中心(如O1
    )。两者比值使点异常和簇异常均呈现高值特征。
  2. 参数鲁棒性验证:在K值变化±50%时,EDROD的AUC波动幅度仅为传统KNN方法的1/3,证明其对参数选择不敏感。
  3. 多领域适用性:在PCB缺陷检测等任务中,EDROD的F1-score较次优方法提升12.7%,尤其在簇状缺陷识别方面优势显著。

结论与讨论:
该研究开创性地将信息熵引入密度检测框架,构建的EDROD方法突破了传统算法"顾此失彼"的局限。KDE-SDB策略通过动态带宽调整解决了固定带宽导致的密度估计偏差问题,而熵密度比指标则巧妙利用了两类异常在局部无序性和全局稀疏性上的共性特征。值得注意的是,方法在保持O(n2
)计算复杂度的同时,通过马氏距离度量有效缓解了维度灾难问题。未来通过高斯基函数降维或可进一步提升计算效率。这项研究为金融风控、工业质检等需要同时应对多种异常形态的场景提供了可靠的技术工具,其"全局-局部"协同检测思想对多模态异常检测算法的设计具有重要启示意义。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号