机器学习模型中过采样技术的综合分析与优化：解决类别不平衡问题的创新策略

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年09月06日 来源：Recent Advances in Computer Science and Communications CS2.5

编辑推荐：

　　针对机器学习中类别不平衡导致的模型偏差问题，研究人员系统评估了SMOTE、Borderline SMOTE和ADASYN等过采样技术，结合SVM、决策树和逻辑回归模型进行优化。研究发现Borderline SMOTE结合SVM可实现71.9%准确率，为构建公平高效的ML模型提供新思路。

在机器学习领域，类别不平衡问题如同"多数派霸权"，常导致模型对少数类的识别能力低下。这项研究如同一位技艺精湛的调音师，通过精心调试SMOTE（合成少数类过采样技术）、Borderline SMOTE（边界敏感过采样）和ADASYN（自适应合成采样）三大"声部"，让决策树(DT)、逻辑回归(LR)和支持向量机(SVM)等"乐器"奏出和谐乐章。

研究团队创新性地引入BERT技术，省去了繁琐的数据预处理步骤。实验数据显示，Borderline SMOTE与SVM的组合犹如黄金搭档，取得了71.9%的准确率和0.53的MCC值（马修斯相关系数），显著缓解了过拟合和噪声放大等问题。这项成果为处理文本分类中的"数据偏倚症"提供了新的"治疗方案"，推动机器学习模型向更公平、更精准的方向进化。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号