CFS-SMOTE：一种基于聚类样本过滤的合成少数类过采样技术，用于处理不平衡的临床数据

《Knowledge-Based Systems》：CFS-SMOTE: A cluster sample filtering-based synthetic minority oversampling technique for imbalanced clinical Data

【字体：大中小】 时间：2026年02月13日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　本文提出一种基于聚类样本过滤的自适应SMOTE方法（CFS-SMOTE），通过k-means聚类识别安全采样区域，滤除噪声样本，再利用自适应SMOTE生成新样本，有效缓解医疗数据不平衡问题并提升分类性能。

赵昭昭 | 徐盼政 | 杨芳媛 | 孙俊定 | 梁鹏晨 | 张玉东 | 唐超生 | 李德光 | 庞斌

河南理工大学计算机科学与技术学院，河南省焦作市，454000，中国

摘要

在临床诊断中，可量化数据通常表现出严重的类别不平衡现象。合成少数样本过采样技术（SMOTE）是一种广泛使用的数据级方法来解决这一问题。然而，SMOTE并未充分考虑到不平衡数据集的样本分布或内在结构，经常产生噪声较大、边界模糊和样本重叠的情况。为了克服这些限制，我们提出了一种基于聚类的样本过滤合成少数样本过采样技术（CFS-SMOTE）。该方法首先应用k-means聚类将数据集划分为多个簇。在选定的簇内，通过k最近邻规则识别并移除可能降低类别可分性的多数类和少数类样本。最后，采用自适应SMOTE对两类样本进行过采样，生成新的少数类和多数类样本。自适应SMOTE根据原始类别大小调整采样率，生成与原始数据相同数量的合成样本。实验结果表明，使用CFS-SMOTE处理后的数据集不仅缓解了类别不平衡问题，而且在性能上也优于原始不平衡数据和现有的采样算法。在21个基准数据集上，XGBoost、GBM和RF的分类准确率分别达到了0.95、0.92和0.94，超过了原始不平衡数据（0.92、0.88和0.92）以及最新算法（0.93、0.89和0.92）的性能。此外，在四个医学数据集上的实验表明，CFS-SMOTE显著提升了多种分类器的临床诊断性能，显示出其在实际应用中的强大潜力。

引言

信息技术在医疗领域的广泛应用加速了医疗信息的数字化。特别是医疗设备和仪器的数字化，导致医院数据库中积累了大量医疗数据[1]、[2]、[3]、[4]。这些数据对于疾病诊断、治疗和医学研究具有很高的价值[5]、[6]。然而，目前对医疗数据的操作主要局限于插入、修改和删除，缺乏全面的整合和分析[7]。近年来，数据挖掘算法越来越多地应用于医疗数据分析，以发现隐藏的模式和趋势，从而为临床诊断、疾病预测和个性化治疗提供科学依据。例如，UMSCS[8]指出数据不平衡严重影响了多模态医学图像分割，并引入了一个跨模态生成和半监督学习框架来缓解这一问题。尽管如此，医疗数据的多样性和复杂性仍然在数据清洗、整合和隐私保护方面带来技术挑战。因此，在确保数据安全的同时有效利用数据挖掘的潜力仍然是当前研究的关键焦点。

随机森林是一种经典的数据挖掘算法，由于其高分类准确率、快速计算速度和易于解释的决策规则，在医疗数据分析中得到广泛应用。然而，由于医疗测试和研究的特性，医疗机构收集的数据集往往存在严重的类别不平衡。随机森林通常假设类别样本量相当，且各类别的误分类成本相等。在医疗数据集中，多数类样本的数量远多于少数类样本，少数类样本的误分类成本更高。随机森林倾向于偏向多数类，并根据整体准确率来评估性能，导致少数类的分类效果非常差[9]。

类别不平衡率（定义为少数类样本的比例）常用于量化数据集的不平衡程度。随着这一比例的增加，分类任务变得更加具有挑战性[10]。类别不平衡和少数类样本的稀缺性导致了复杂的分布特征，这对解决不平衡分类问题至关重要[11]。这些特征包括小的、不连续的少数类区域[12]、类别间的重叠[13]、稀有样本和异常值。研究表明，更大的类别分离度和更高的重叠程度会显著降低分类算法的性能[14]。此外，这些复杂的分布特征在现实世界的数据集中很少单独出现[15]。在医学图像分割中，类别不平衡通常还会因注释稀缺而加剧。MMSeg[16]提出了一个多任务学习框架，以同时解决类别不平衡和标签有限的问题，强调了在临床应用中需要更具适应性的解决方案的紧迫性。这些问题严重影响了算法对少数类样本的准确分类能力。因此，提高类别不平衡医疗数据的分类性能仍然是亟待研究的重点。

为了解决类别不平衡问题，研究人员提出了不同层次的解决方案，通常分为三类：算法级方法、成本敏感方法和数据级方法[17]。算法级方法通过调整决策阈值[18]、改变学习策略[19]或结合集成学习技术[20]来修改现有分类器，以更好地处理不平衡数据集。然而，集成方法通常需要训练多个分类器，计算成本较高。成本敏感方法为不同类别分配不同的误分类成本，鼓励分类器在训练过程中考虑这些成本以提高少数类的性能[21]。然而，过度增加与少数类错误相关的成本可能导致对少数类样本的过拟合，从而提高其准确性而牺牲多数类的性能。

数据级方法通过重新采样数据集来平衡类别分布[22]。根据采样策略，这些方法通常分为欠采样和过采样。欠采样通过随机或策略性地从多数类中移除样本来实现类别平衡。由于它减少了数据集的整体大小，因此更适合大规模数据集。SMOTE是一种经典的过采样方法，通过插值现有少数类样本生成新的少数类样本。尽管SMOTE可以有效平衡类别大小，但其样本合成策略常常产生噪声较大、边界模糊和样本重叠的情况。此外，SMOTE需要计算每个少数类样本的k最近邻，这在大规模数据集上会导致较高的计算复杂性。为了克服这些限制，本文提出了一种基于样本过滤的少数类样本合成技术

首先，应用k-means算法对原始数据集进行聚类，并计算每个簇内的不平衡率，以确定目标簇，确保采样区域的安全性。其次，在这些目标簇内，根据最近邻的类别一致性移除噪声较大和异构的样本。最后，使用自适应SMOTE对两类样本进行过采样，生成新的少数类和多数类样本。该方法的新颖之处不在于单独使用聚类、过滤或SMOTE，而在于它们的系统集成。聚类提供了结构感知，过滤增强了数据可靠性，自适应合成引入了灵活性。这种统一的流程直接解决了现有基于聚类的过采样方法的主要局限性，使得所提出的方法特别适合高度不平衡和易受噪声影响的数据集。本研究的主要贡献如下：

(i) 使用k-means算法对原始数据集进行聚类，并计算每个簇的不平衡率。然后选择目标簇，确保后续采样在安全区域内进行。引入不平衡率计算可以减少冗余采样并提高采样效率。

(ii) 在目标簇内，移除标签与其最近邻不一致的样本，从而消除噪声较大和异构的样本。这种邻居一致性分析通过准确识别不可靠的实例来提高数据质量。

(iii) 使用自适应SMOTE算法生成新样本，根据原始类别大小设置采样比率，以生成与原始数据集相同总数的样本。采样比率可以动态调整，以匹配数据集的分布特征，克服传统过采样方法的局限性。

(iii) 实验结果表明，所提出的算法显著优于现有的采样方法。随机森林、XGBoost和GBM在过采样数据集上的整体性能最佳。此外，在多个医学数据集上的实验证实，所提出的方法非常适合解决实际临床场景中的类别不平衡问题。

本文的其余部分安排如下：第2节回顾相关工作，重点介绍结合聚类和过采样的技术及算法。第3节详细描述了所提出的算法，包括其创新点、实现步骤和优势。第4节和第5节展示了实验结果，分析了所提算法在各种数据集上的性能，并与现有最先进算法进行了比较。第6节总结了本文并讨论了未来的研究方向。

方法

为了解决现有基于聚类的过采样算法的局限性，本文提出了一种基于样本过滤的自适应少数类样本合成方法，具有三个关键创新点。首先，该算法对不平衡数据集应用k-means聚类，并评估每个簇内的不平衡率，以确定过采样的安全区域。这一结构过滤步骤确保合成过程受到簇级分布信息的指导，而不是

集成方法

集成方法[49]在医学领域得到广泛应用，因为它们结合了多个弱分类器的预测以提高整体准确率。根据数据集采样策略和分类器组合技术，集成方法包括梯度提升机（GBM）、RF和XGBoost[50]、[51]、[52]。

具体来说，GBM依次集成多棵决策树，每棵树尝试纠正前一棵树的错误。使用梯度下降来最小化损失

实验数据

为了评估所提算法的有效性，选择了17个UCI公共数据集和4个UCI医学数据集进行对比实验。医学数据集包括糖尿病（糖尿病诊断）、wdbc（乳腺癌诊断）、Haberman（癌症患者生存）和Spectfheart（心脏病相关）。在实验中，对所有数据集应用了集成算法，并记录了10折交叉验证的平均性能。具体来说，每个数据集都

结论

为了解决类别不平衡医学数据分类的挑战，本研究提出了一种基于簇样本过滤的少数类样本合成技术（CSF-SMOTE）。首先，对原始数据集应用基于簇样本过滤的k-means算法，识别并移除选定簇中的异构样本，有效消除了两类样本中的噪声较大和边界模糊样本，显著提高了后续合成样本的质量。其次，

未引用的表格

3、表4、表5、表6、表7、表8、表9、表10、表11、表12、表13、表14、表15、表16、表17、表18、表19、算法8和算法8。

CRediT作者贡献声明

赵昭昭：验证、监督、软件、资源、项目管理、方法论、调查、资金获取、形式分析、概念化。徐盼政：项目管理、方法论、调查、形式分析、数据管理、概念化。杨芳媛：项目管理、形式分析、数据管理。孙俊定：资源、数据管理。梁鹏晨：写作——审稿与编辑、写作——初稿、验证、数据管理。

利益冲突声明

作者声明与本文的创作和发表没有利益冲突。

致谢

本工作得到了国家自然科学基金（62276092,62303167）、中国国家资助的博士后研究计划（GZC20230707）、河南省重点科学技术计划（242102211051, 212102310084）以及河南省高校重点科研项目（22A520027）的支持。

摘要

引言

相关工作

相关研究

方法

集成方法

实验数据

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行

新闻专题