优化深度隔离森林算法在时间序列异常检测中的应用与性能提升研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年07月28日 来源：Pattern Recognition Letters 3.9

编辑推荐：

　　本研究针对无监督异常检测中计算复杂度高的问题，提出优化深度隔离森林算法（ODIF），通过预采样策略减少数据转换量，在18个真实数据集上验证显示：PR AUC指标保持DIF水平（39.5% vs 39.9%），CPU/GPU训练时间分别缩短1.5倍和150倍，内存消耗降低18%（RAM）和55%（VRAM），为资源受限场景提供高效解决方案。

在数据爆炸的时代，异常检测（Anomaly Detection, AD）如同大海捞针，尤其是面对医疗监测、工业故障诊断等场景中高维非线性数据时，传统方法如隔离森林（Isolation Forest, IF）常因轴平行分割的局限性而表现不佳。尽管深度隔离森林（Deep Isolation Forest, DIF）通过神经网络转换数据空间提升了检测能力，但其全样本转换机制带来的计算负担成为制约实际应用的瓶颈——当处理如心电图监测等实时性要求高的数据时，这种缺陷尤为致命。

针对这一挑战，研究人员在《Pattern Recognition Letters》发表的研究中提出优化深度隔离森林算法（Optimized Deep Isolation Forest, ODIF）。该研究创新性地将采样环节前置至数据转换阶段，仅对后续建树所需的样本进行高效表示学习（CERE机制），同时取消建树时的重复采样。通过18个真实数据集（包括医疗诊断数据集Fault和健康监测数据集Skin）的系统验证，ODIF在保持DIF检测精度的前提下（PR AUC均值39.5% vs 39.9%），实现训练阶段CPU耗时降低至DIF的1/1.5倍（平均666ms vs 1002ms），GPU加速达150倍（18ms vs 2646ms），内存占用减少18%（RAM 741MB vs 907MB）和55%（VRAM 138MB vs 312MB）。这种"瘦身"不降效的特性，使其在边缘计算设备部署和实时监测场景中展现出独特优势。

关键技术方法包括：1）预采样策略（Pre-sampling）减少CERE转换样本量；2）改进的隔离树构建流程消除冗余采样；3）基于DEAS评分函数的异常评估体系；4）采用ADBench框架进行多维度基准测试。

研究结果具体表现为：

性能分析：ODIF在Satimage-2等数据集上PR AUC达93.6%，显著优于传统IF（91.7%）和ECOD（65.8%），与DIF（94.2%）相当，Wilcoxon检验证实差异不显著（p=0.5226）。
时间效率：在Fraud数据集上，ODIF GPU训练仅21ms，较DIF的1.8e4ms实现数量级提升；CPU阶段在Backdoor数据集耗时589ms，较DIF（1328ms）节省55.6%。
资源消耗：处理大规模数据集Skin时，ODIF VRAM占用仅138MB，较DIF（1090MB）降低87%，RAM消耗优化56%（737MB vs 1674MB）。

该研究的突破性在于首次实现深度隔离森林算法的"轻量化"改造，通过算法流程重构而非简单参数调整，在保持非线性异常检测优势（如处理医疗数据中的罕见病症模式）的同时，满足实时处理需求。特别是VRAM使用的稳定性（各数据集波动<10MB），使其在嵌入式医疗设备等内存受限场景具备独特应用价值。未来可结合主动学习（Active Learning）进一步优化采样策略，或探索可训练CERE网络提升对时序特征的捕捉能力。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号