
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于集成机器学习与混合数据采样的信用卡欺诈检测新方法研究
【字体: 大 中 小 】 时间:2025年06月13日 来源:Machine Learning with Applications
编辑推荐:
为解决信用卡欺诈检测中数据不平衡、误判率高及实时处理困难等问题,研究人员提出一种结合SMOTE(合成少数类过采样技术)与ENN(编辑最近邻)的集成机器学习模型EML-SB。实验表明该方法在准确率(ACC 0.99997)、召回率(1)等指标上优于现有技术,为金融安全领域提供了更鲁棒的解决方案。
信用卡欺诈已成为全球金融系统的顽疾。英国财政部2022年数据显示,每分钟因欺诈损失高达2300英镑,其中78%通过互联网渠道实施。传统检测方法面临三大挑战:一是数据严重不平衡(欺诈交易仅占0.172%),导致模型偏向多数类;二是误判率高,既可能误拦合法交易(FP)又可能漏检欺诈(FN);三是现有算法在实时性和泛化能力上存在局限。
针对这些问题,来自未知机构的研究团队在《Machine Learning with Applications》发表了一项创新研究。他们开发了名为EML-SB(Ensemble Machine Learning based on Sample Balancing)的新型检测系统,通过集成AdaBoost、随机森林(RF)和K近邻(KNN)三类算法,并引入SMOTE+ENN混合采样技术,显著提升了检测性能。
研究采用四项关键技术:1)从Kaggle获取的ULB机器学习组284,807条交易数据集;2)SMOTE生成合成样本平衡数据分布,结合ENN剔除噪声样本;3)构建包含AdaBoost(50个弱学习器)、RF(100棵决策树)和KNN(k=5)的投票集成模型;4)通过精确度(Precision)、召回率(Recall)、F1值和AUC-ROC曲线等指标评估性能。
4.1 无采样模型的性能
基础集成模型在原始不平衡数据上达到0.99943准确率,但召回率仅0.736,显示对少数类识别不足。
4.2 欠采样技术对比
采用1:1欠采样后,AdaBoost与RF保持0.95263准确率,但集成模型FP降至1例,证明欠采样可降低误报。
4.3 SMOTE优化效果
SMOTE使RF模型召回率达到1,准确率0.99988,F1值0.999,显示过采样能显著提升欺诈识别率。
4.4 SMOTE+ENN突破性表现
混合采样策略(采样率0.5)使集成模型创下0.99997准确率,完全消除FN(FN=0),AUC-ROC接近完美,验证了该方法在清除噪声数据方面的优势。
4.5 横向对比
相较Sahithi等人(2022)的加权集成模型(ACC 0.99945)和Khalid等人(2024)的SMOTE方案(ACC 0.99959),本研究的SMOTE+ENN集成模型将准确率进一步提升至0.99997,且保持100%召回率。
这项研究的意义在于:首先,SMOTE+ENN的组合首次被证明能同时解决数据不平衡和噪声样本问题;其次,集成模型的FP仅2例,远低于传统方法(如AdaBoost单模型的732例FP),大幅降低误报带来的客户投诉;最后,该方案为实时检测系统提供了可行架构,其处理284,807条数据的表现显示具备工程落地潜力。未来研究可探索深度学习增强方案,并在更多金融场景中验证泛化能力。
生物通微信公众号
知名企业招聘