《Digital Signal Processing》:Concept Drift Detection in Delayed and Partially Labeled Data Streams: An Experimental Survey
编辑推荐:
完全标记的数据是监督模型训练的理想场景。然而,在许多情况下,标签可能稀缺,特别是当大量数据作为开放式流产生时。此外,在动态流中,假设生成数据的底层过程是非平稳的,其行为随时间变化。因此,分类模型学习到的概念可能发生变化,非自适应模型将遭受性能下降,这种现象称为
完全标记的数据是监督模型训练的理想场景。然而,在许多情况下,标签可能稀缺,特别是当大量数据作为开放式流产生时。此外,在动态流中,假设生成数据的底层过程是非平稳的,其行为随时间变化。因此,分类模型学习到的概念可能发生变化,非自适应模型将遭受性能下降,这种现象称为概念漂移(Concept Drift, CD)。面对部分或延迟标签的流,识别和应对此类变化的挑战更加复杂。这指的是现实场景,其中传入点的真实标签不能立即获得(延迟)或可能永远无法获得(部分)。在本研究中,研究人员专注于调查概念漂移检测器在处理延迟和部分标记数据流时的性能。研究人员对文献中的主要方法进行了分类,提供了概念漂移检测器的分类法(taxonomy),并概述了在延迟或部分标记条件下评估这些检测器的最有影响力的方法。最后,研究人员进行了一系列实验,分析了这些检测器在标签稀缺场景中的性能。总之,该综述讨论了其主要局限性,并提供了对该领域未来研究潜在方向的见解。
1. Introduction
本节指出完全标记数据是监督学习的理想场景,但现实系统常面临两大挑战:随时间变化的动态行为和有限的标签可用性。动态行为导致后验概率变化,即概念漂移(Concept Drift, CD)。当标签缺失或延迟时,学习算法性能下降,尤其在数据流(Data Stream)应用中。为填补文献空白,本文结合综述与实验贡献:通过文献综述识别适用于延迟和部分标签场景的漂移检测器,并提出新的分类法(taxonomy),重点关注标签可用性和延迟对检测策略的影响。与先前综述(如Gama等2014年针对传统CD,Gomes等2022年针对半监督学习,Fahy等2022年针对标签稀缺)不同,本文专门研究延迟和部分标签下的CD检测,并辅以大量实验评估。
2. Problem Definition
将数据流S定义为带标签样本(x
i, y
i)的序列。标签可用性由时间映射函数T(·)刻画,定义了四种场景:立即完全标记、延迟完全标记、立即部分标记、延迟部分标记。概念漂移指条件分布P(Y|X)的变化,分为突然(abrupt)、增量(incremental)、渐变(gradual)和重复(reoccurring)类型。进一步区分真实概念漂移(P(Y|X)变化)和虚拟漂移(P(X)变化而不影响P(Y|X))。本文聚焦于延迟部分标记数据流(Delayed Partially Labeled Data Streams, DPLDS),并以图例说明标签延迟对检测的影响:延迟导致检测次数减少、模型准确率下降且恢复期延长。
3. Concept Drift Detectors
根据图4的分类法,检测器分为立即标记和延迟/部分标记两大分支。立即标记检测器基于错误率e
t,包括序列分析(序列概率比检验SPRT、累积和CUSUM、Page-Hinkley检验PHT)、控制图(指数加权移动平均EWMA)和分布监测(自适应滑动窗口ADWIN、漂移检测方法DDM、早期漂移检测方法EDDM、基于Hoeffding不等式的HDDM、等比例统计检验STEPD等)。延迟/部分标记检测器分为三类:原始数据监测(基于图像的IBDD、质心距离CDDD)、分布监测(增量Kolmogorov-Smirnov检验IKS、判别式漂移检测器D
3、贝叶斯方法BNDM、人工神经网络BADB、单类分类器OCDD、集成方法MDE、基于Shapley值的L-CODE、元学习MtL等)和输出分类(置信度分布批量检测CDBD、窗口方法FRW/MRW/ERW、边际密度MD
3、编码器-解码器ABCD、学生-教师学习STUDD、元学习Meta-ADD、四元组QuadCDD、多标签检测LD
3等)。表3总结了各检测器的架构、模型依赖性、学习问题类型、标签可用性、延迟类型和漂移类型。
4. Evaluation Methods
评估分为学习者依赖和独立两个视角。学习者依赖方法包括预测试-训练(prequential)方法及其交叉验证变体,但延迟标签下需采用缓冲区和重新评估技术(如中间性能度量IPMs)。学习者独立评估针对漂移检测器本身,采用平均误报间隔(MTFA)、平均检测时间(MTD)、误报率(FAR)、漏检率(MDR)等指标,并引入混淆矩阵相关指标(TPD、TND、FPD、FND)以及检测延迟度量(DDA、TDDA)。表4展示了各研究在学习者算法、学习者评估、漂移检测器评估和数据流类型四个维度的配置,强调多数研究使用合成数据以获取真实漂移信息。
5. Experimental Analyses
实验基于MOA框架,使用Agrawal、LED、Mixed、Random RBF、Sine、Waveform六种生成器创建100k实例的数据流,含4个突然或渐变漂移点(20k、40k、60k、80k)。部分标记实验设置95%-99%标签缺失,延迟实验设置1000-10000实例延迟。检测器包括DDM、EDDM、ADWIN、ECDD、STEPD、SeqDrift2、SEED、HDDMA、HDDMW、RDDM30、RDDM、双样本Kolmogorov-Smirnov检验(Test
Ks)、Wilcoxon秩和检验(Test
Wrs)、双样本t检验(Test
Tt)、多变量集成漂移检测(Multivariate)和STUDD。评估指标为TPD、TDD和TDDA。结果显示:在部分标记(99%缺失)和突发漂移下,Test
Wrs的TPD最高但TDD极大(误报数千次),导致较低TDDA;SeqDrift2的TDDA最高但检测延迟大;Multivariate和STUDD在多个数据流中未能检测漂移。在延迟10k实例下,大多数检测器TPD较高(4个真漂移),但Test
Wrs仍误报过多;ADWIN、ECDD、RDDM30等误报率也高。DDM在部分标记下误报多,延迟下改善;E-DDM在延迟下效果更差;统计检验方法误报率普遍最高。总体而言,现有检测器在延迟和部分标记数据流中效果不佳,亟需新策略。
6. Conclusion and Perspectives
本文提出了针对延迟和部分标记数据流中概念漂移检测的分类法,系统梳理了现有方法,并强调公平评估的重要性。实验表明,依赖标签的传统检测器虽高TPD但高TDD,无法有效区分真实漂移;无标签方法性能相当,仍面临挑战。本文未包含深度学习检测器(因硬件和软件限制),这限制了结论的泛化性。最终指出,该领域仍是一个开放问题,需结合半监督学习和延迟标签相关性评估的新策略,为未来研究提供了方向。