基于高斯混合模型与马氏距离假设检验的离群集检测方法OSTI及其在复杂系统异常模式识别中的应用

【字体: 时间:2025年08月17日 来源:Knowledge-Based Systems 7.6

编辑推荐:

  本文提出了一种名为离群集两步识别法(OSTI)的创新方法,通过高斯混合模型(GMM)概率聚类结合簇间马氏距离(Inter-cluster Mahalanobis distance)的卡方检验,实现了对数据中协同异常模式(即"离群集")的精准检测。该方法在8,000组合成数据测试中平均F1值达0.92,纯度达98.58%,填补了现有离群检测技术无法排除单点干扰而专一识别群体异常的空白,为气候建模、网络安全等领域的系统性偏差分析提供了新工具。

  

Highlight

本文开创性地提出"离群集(outlier sets)"概念——即作为整体偏离数据集典型模式的协同数据点群组,并开发了离群集两步识别法(OSTI)。与传统单点离群检测不同,OSTI通过高斯混合模型(GMM)概率聚类初筛候选集,再基于簇间马氏距离的卡方检验实现统计验证,最终以单一标签标识整个异常群组。

Methodology

步骤A:采用高斯混合模型(GMM)进行概率聚类,将权重低于超参数阈值的簇标记为候选离群集。步骤B:计算每个候选集质心与整体数据集均值间的簇间马氏距离,通过卡方检验验证其统计显著性。这种双阶段设计确保仅当整个群组呈现系统性偏离时才被标记,有效排除单点干扰。

Evaluation

在8,000组二维合成数据测试中,OSTI展现出卓越的鲁棒性:平均F1分数0.92揭示其精准的召回率与准确率平衡,98.58%的纯度则证实检测结果与真实离群集的高度吻合。与LOF、iForest等传统方法对比显示,OSTI是唯一能完全排除单点干扰而专一识别群体异常的技术。

Discussion

OSTI的创新性体现在将群体异常视为独立分析单元。例如在气候建模中,它能直接标识导致极端天气的协同气象模式群组,而非零散的温度异常点;在网络安全领域,可捕捉高级持续性威胁(APT)的协同攻击信号,避免传统方法对单次正常登录的误判。

Conclusion

OSTI首次为"离群集"检测提供了统计学严谨的解决方案。其超参数鲁棒性(如权重阈值在0.005-0.02区间稳定)和模块化设计,特别适合高维生物医学数据中复杂异常模式的挖掘,例如癌症异质性分析或流行病学中的时空传播簇检测。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号