半监督局部熵衰减过采样算法在数据不平衡情况下的应用
《Knowledge-Based Systems》:Semi-Supervised Local Entropy-Decayed Oversampling for Imbalanced Data
【字体:
大
中
小
】
时间:2025年12月06日
来源:Knowledge-Based Systems 7.6
编辑推荐:
针对不平衡数据中复杂特征的处理,本文提出半监督局部熵衰减过采样方法(SLEO)。通过结合半监督分层聚类与熵衰减机制,SLEO有效识别了重叠区域、小集合和离群点,并采用加权超球生成策略生成高质量合成样本。实验表明,该方法在65个基准数据集上显著优于13种现有采样技术,尤其在处理高维、多类别及存在极端不平衡的数据集时表现优异。
不平衡分类问题在医疗诊断、金融风控、工业监测等领域具有广泛应用价值。近年来,随着数据复杂性的提升,传统 oversampling 技术面临三重挑战:类边界模糊导致的特征混淆、稀疏区域样本过少难以建模、以及少数类内部存在异构子概念的未被识别。这些结构性问题往往被现有方法忽视,直接采用全局均匀采样或简单邻域插值会导致合成样本质量下降,甚至放大原有数据的不平衡性。
当前主流方法主要分为两类:算法级调整和数据处理级增强。算法级方法通过调整损失函数权重或设计类平衡的评估指标,但其性能提升受限于模型本身的泛化能力。数据处理级方法通过过采样少数类或欠采样多数类实现数据平衡,但现有 oversampling 技术普遍存在三个缺陷:其一,未充分考虑少数类内部的结构异质性,如不同亚类间的密度差异和空间分布重叠;其二,对多数类样本的干扰处理不足,模糊边界区域的多数类样本可能误导模型决策;其三,缺乏对数据分布复杂特性的动态适应机制,难以应对高维稀疏特征空间中的非线性关系。
针对上述问题,研究团队提出 Semi-Supervised Local Entropy-Decayed Oversampling (SLEO) 方法。该方法创新性地将半监督聚类与熵衰减机制相结合,形成三级处理架构:首先通过带标签约束的层次聚类算法,将少数类分割为具有明确结构特征的子簇群。该聚类过程不仅考虑样本间的相似性度量,还引入与多数类样本的距离衰减因子,有效分离重叠区域。其次,构建局部熵衰减模型,在子簇邻域内动态调整采样半径,当区域熵值低于预设阈值时停止扩张,避免过度采样造成的冗余信息。最后,采用加权超球体生成策略,根据各子簇的原始熵值自动调整合成样本的分布密度,确保新生成的样本在特征空间中形成具有区分性的离散簇。
实验设计覆盖65个典型不平衡数据集,包括4个高维数据集(特征维度超过1000)。评估指标采用综合包(Cube)评分系统,包含AUC、F1-score、Balanced-Accuracy 等经典指标,同时引入结构敏感度指数(SSI)来量化算法对数据复杂特性的适应能力。对比实验包含13种主流 oversampling 方法,包括 SMOTE、ADASYN、SMOTE-ENN、SMOTE-ND自知等。实验结果表明,SLEO 在处理具有显著类重叠(重叠度>40%)或存在稀疏分布区域(样本密度<0.05%)的数据集时,综合性能比次优方法提升约15.7%,特别是在医疗影像诊断(如乳腺癌良恶性分类)和工业缺陷检测场景中,性能优势达到23.4%。
该方法的核心创新体现在三个方面:1)提出基于半监督层次聚类的结构解耦技术,通过引入带标签约束的相似性度量矩阵,有效识别少数类中的亚簇结构。实验显示该技术可将少数类内部的异质性识别准确率提升至92.3%;2)设计局部熵衰减机制,在传统 SMOTE 的邻域采样基础上增加动态边界检测模块。当采样半径扩展至使局部条件熵下降率低于0.3%时自动终止,有效避免合成样本的分布失真;3)建立熵加权超球体生成模型,根据各子簇的原始信息熵自动调整超球体半径和密度参数,在保持数据分布特性的同时提升合成样本的类可分性。
算法实现过程中采用混合优化策略:对于低维数据(特征数<200)采用基于密度的层次聚类算法,对高维数据则引入局部敏感 hashing (LSH) 降维预处理。熵值计算采用香农熵的改进版本,通过引入数据分布的对称性因子,有效解决高维空间中局部密度估计偏差问题。实验数据显示,该方法在处理50万特征以上的基因表达数据时,仍能保持85%以上的原始信息保留率。
在工程实现方面,研究团队开发了高效的分布式计算框架。通过并行化聚类和熵计算过程,使算法在拥有256核CPU的服务器上实现秒级处理速度(平均处理时间3.2秒/GB数据)。特别设计的内存优化模块可将处理100GB数据集时的内存占用降低至12GB,这对工业场景中的实时数据处理具有实际意义。代码开源平台数据显示,SLEO在GitHub上的Star数已突破5000,被应用于超过200个工业项目的数据增强环节。
该方法的实际应用价值体现在三个典型场景:在金融欺诈检测中,面对正常交易与欺诈交易99:1的极端不平衡数据,SLEO通过识别欺诈亚型(如小额高频交易、大额异常转账等)生成差异化合成样本,使模型对新型欺诈模式的识别率提升37.6%;在工业设备故障预测领域,该方法成功分离出早期磨损(样本密度0.02)、突发故障(样本重叠度>45%)等子概念,合成样本使F1-score从基准模型的0.31提升至0.67;在医疗影像分析中,通过识别肿瘤边缘(局部熵值下降率>0.4)和微小病灶(密度<0.03)等复杂结构,使乳腺癌分级模型的AUC值达到0.96,较传统方法提升21.3%。
该研究的重要启示在于:不平衡分类问题的解决方案需要突破单一维度优化的局限,构建多层级协同处理框架。首先,深度挖掘少数类内部的结构异质性,这需要结合领域知识建立动态相似性度量标准;其次,建立与多数类样本的交互式处理机制,通过智能边界检测消除多数类样本的干扰;最后,设计自适应生成策略,根据数据分布特性动态调整合成样本的质量和分布。这种三位一体的处理范式为后续不平衡学习研究提供了新的方法论框架。
后续研究计划将该方法拓展至多类别不平衡场景,并探索在无监督学习中的迁移应用。当前已在制造业缺陷检测和智慧医疗影像分析中取得商业应用,相关技术已被两家上市公司纳入产品研发管线。该方法的理论创新点在于将信息熵原理从数据分布描述提升到机器学习处理的全流程优化,这一突破可能为解决其他类型的数据偏态问题(如文本分类中的领域偏移、时序数据中的周期性偏移)提供新的技术路径。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号