
-
生物通官微
陪你抓住生命科技
跳动的脉搏
机器学习模型中过采样技术的综合分析与优化:解决类别不平衡问题的创新策略
【字体: 大 中 小 】 时间:2025年09月06日 来源:Recent Advances in Computer Science and Communications CS2.5
编辑推荐:
针对机器学习中类别不平衡导致的模型偏差问题,研究人员系统评估了SMOTE、Borderline SMOTE和ADASYN等过采样技术,结合SVM、决策树和逻辑回归模型进行优化。研究发现Borderline SMOTE结合SVM可实现71.9%准确率,为构建公平高效的ML模型提供新思路。
在机器学习领域,类别不平衡问题如同"多数派霸权",常导致模型对少数类的识别能力低下。这项研究如同一位技艺精湛的调音师,通过精心调试SMOTE(合成少数类过采样技术)、Borderline SMOTE(边界敏感过采样)和ADASYN(自适应合成采样)三大"声部",让决策树(DT)、逻辑回归(LR)和支持向量机(SVM)等"乐器"奏出和谐乐章。
研究团队创新性地引入BERT技术,省去了繁琐的数据预处理步骤。实验数据显示,Borderline SMOTE与SVM的组合犹如黄金搭档,取得了71.9%的准确率和0.53的MCC值(马修斯相关系数),显著缓解了过拟合和噪声放大等问题。这项成果为处理文本分类中的"数据偏倚症"提供了新的"治疗方案",推动机器学习模型向更公平、更精准的方向进化。
生物通微信公众号
知名企业招聘