编辑推荐:
在金融交易数字化浪潮中,信用卡欺诈频发。研究人员针对 VIVA 钱包交易数据,运用无监督学习开展欺诈检测研究。结果显示,自动编码器(AE)等模型表现出色,且 SHAP 可提升模型可解释性。这有助于构建更高效的欺诈检测系统。
在当今数字化时代,金融领域的线上交易蓬勃发展,给人们带来便捷的同时,也滋生了日益猖獗的信用卡欺诈问题。想象一下,你正安心地使用信用卡进行日常消费,却不知背后可能隐藏着不法分子的黑手,他们利用各种手段窃取你的信息,进行欺诈交易,导致金融机构每年都承受着巨额损失。据预测,到 2027 年,信用卡欺诈损失预计将达到 68 亿美元。传统的基于规则的欺诈检测系统,如同老旧的城墙,面对不断变化的欺诈手段,逐渐显得力不从心。其高误报率不仅耗费大量人力物力进行人工审核,还可能遗漏新型欺诈行为,使得金融安全防线漏洞百出。
为了攻克这一难题,来自欧洲的研究人员与 Viva Wallet 合作,开展了一项极具意义的研究。他们旨在利用无监督学习技术,开发出能够实时、精准检测信用卡欺诈的系统,以守护金融交易的安全。
研究人员运用了多种关键技术方法。首先是数据预处理技术,从 Viva Wallet 获取的大量交易数据,包含 6915699 笔交易和 30 个变量,数据复杂且存在标签稀缺等问题。研究人员通过 HTML 解析提取标签、识别持卡人、进行时间数据分段等步骤,构建了结构化数据集。其次,运用了多种模型技术,包括隔离森林(Isolation Forest)、一类支持向量机(One - Class SVM)和深度神经自动编码器(autoencoder)。同时,采用遗传算法(GA)进行特征选择,并利用 Shapley Additive Explanations(SHAP)提升模型的可解释性。
实验 1:基于持卡人的异常检测机器学习方法
研究人员使用隔离森林和一类支持向量机在持卡人层面进行异常检测。对模型参数进行调整,如隔离森林的 “n_estimators” 设为 100,“contamination” 根据数据集异常比例设置(商家为 0.056,个人为 0.072);一类支持向量机的 “nu” 也依此设置,“gamma” 采用默认值。结果表明,隔离森林在多个指标上优于一类支持向量机,如在商家数据集中,隔离森林的真阳性率(TP Rate)为 59% ,高于一类支持向量机的 44%;在个人数据集中,隔离森林的 F1 评分(20%)也高于一类支持向量机(10%) 。这说明隔离森林在处理高维数据、识别异常方面更具优势。
实验 2:测试自动编码器进行广义异常检测
研究运用自动编码器进行广义欺诈检测。自动编码器采用对称的编码器 - 解码器结构,编码器由五层组成,通过指数线性单元(ELU)激活函数进行数据压缩,解码器则反向重构数据。训练过程中使用随机梯度下降(SGD)优化算法,以均方误差衡量重构误差。结果显示,自动编码器在检测欺诈方面表现出色,在个人数据集上真阳性率达到 85%,F1 评分达 25% ,但精度相对较低,为 11% 。这表明自动编码器能有效捕捉复杂的欺诈模式,但在精准判断上还有提升空间。
实验 3:研究特征选择对模型性能的影响
研究尝试用遗传算法和领域专家知识进行特征选择。遗传算法通过迭代优化,以决策树分类器的 F1 评分为 fitness 函数,筛选出最优特征子集。结果发现,领域专家知识选择特征(DE FS)在提升模型性能上效果显著,尤其在个人数据集上,能提高真阳性率和召回率;遗传算法的效果则参差不齐,在某些情况下比不进行特征选择好,但总体不如领域专家选择的特征。这说明在特征选择中,领域知识的融入至关重要。
实验 4:使用 SHAP 值实现可解释人工智能
研究利用 SHAP 值提升模型可解释性。SHAP 值能从全局和局部展示特征对模型预测的贡献。全局解释图中,“Usual_Currency” 等特征对模型预测影响较大;局部解释中,如 “DaysBetweenTransactionAndCardIssued” 等特征在特定交易中对判断欺诈起到关键作用。这使得模型决策更加透明,有助于业务专家理解和信任模型。
综合上述研究,研究人员得出结论:隔离森林在基于持卡人的异常检测中表现突出,能有效识别欺诈交易且误报率低;自动编码器在广义异常检测方面性能强劲,可捕捉复杂欺诈模式;领域专家知识驱动的特征选择对提升模型性能效果显著;SHAP 值为模型赋予了可解释性,增强了业务专家对模型的信任。
该研究意义重大,为金融机构防范信用卡欺诈提供了更有效的方法。一方面,开发的机器学习系统可实时监测交易,适应不断变化的欺诈模式,减少损失;另一方面,模型的可解释性有助于欺诈分析师更好地理解模型决策,提升欺诈检测的透明度。此外,研究中创新的特征工程技术和个性化风险评估方法,为欺诈检测领域的发展提供了新的思路和方法,推动了金融领域人工智能和机器学习应用的理论发展,也为其他金融机构应对类似问题提供了宝贵的参考。