基于片段化数据的个人信用风险评分:一种两阶段机器学习方法
《Expert Systems with Applications》:A two-stage machine learning method for personal credit risk scoring with fragmentary data
【字体:
大
中
小
】
时间:2025年11月05日
来源:Expert Systems with Applications 7.5
编辑推荐:
本文针对信用评分中普遍存在的片段化数据问题,提出了一种创新的两阶段机器学习方法。研究人员通过构建基于缺失模式的模型组,并采用基于交叉验证的刀切法优化权重,有效避免了传统删除或插补法造成的信息损失或失真。实证结果表明,该方法在真实个人信贷数据上的AUC值最高达到0.7222,显著提升了预测性能,为金融机构处理不完整数据提供了更可靠的信用风险评估工具。
在当今金融领域,个人贷款业务如同经济的毛细血管,为消费和市场注入活力。然而,金融机构在评估贷款申请时,常常面临一个棘手难题:客户提交的信息往往像一幅残缺的拼图,关键部分不知所踪。这种数据片段化现象可能源于申请人跳过选填项、数据供应商提供不完整的信用记录,或是某些信息根本不适用。传统上,银行要么选择删除不完整记录(如同直接丢弃拼图碎片),要么尝试填充缺失值(好比猜测缺失图案),但前者导致信息浪费,后者可能引入偏差。
正是在这样的背景下,来自福建警察学院公共管理系的郑晨璐等研究人员在《Expert Systems with Applications》上发表了一项创新研究。他们开发了一种两阶段机器学习方法,巧妙绕开了传统处理方式的陷阱,如同为残缺的拼图找到了新的拼接法则。该方法不删除、不猜测,而是充分利用每一片可用数据,实现了更精准的信用风险评估。
研究人员采用的关键技术方法主要包括:基于LightGBM(一种梯度提升决策树算法)构建候选模型;根据数据缺失模式进行模型分组;运用交叉验证的Jackknife(刀切法)准则优化模型权重。研究数据来源于一家中国商业银行的26,370名个人贷款客户的真实业务数据,包含21个特征变量。
研究指出信用风险评估对个人贷款风险管控至关重要。即使微小的模型改进也能带来显著效益,而传统统计方法和机器学习模型在处理片段化数据时都存在局限性。
数据分析显示,该个人消费贷款数据集存在多种缺失模式,反映了真实业务场景中数据收集的复杂性。
两阶段方法的设计思路是:第一阶段针对不同缺失模式训练专用模型组,第二阶段通过优化算法确定最佳模型组合权重。这种方法确保了每种数据缺失情况都能得到针对性处理。
模拟实验覆盖了MCAR(完全随机缺失)、MAR(随机缺失)和MNAR(非随机缺失)三种缺失机制,从AUC(曲线下面积)、ACC(准确率)、REC(召回率)、SPE(特异性)和F1-score五个维度验证了方法的稳健性。
Personal loan case analysis
实证分析发现数据集存在10种缺失模式。对于第一种完整数据模式,模型组包含10个候选模型。在真实数据测试中,该方法取得了0.7222的峰值AUC值,显著优于基线模型。
Conclusion and discussion
该研究证实,基于LightGBM的两阶段信用评分方法能有效处理片段化数据,避免传统数据预处理方法的缺陷。通过充分利用所有可用观测数据,该方法为金融机构提供了更可靠的信用风险评估工具,特别是在处理不完整数据集时表现出明显优势。
这项研究的创新之处在于将数据缺失模式转化为建模优势,而非障碍。就像一位经验丰富的侦探能够从零散线索中还原真相一样,该算法能从片段化数据中提取关键风险信号。对于每天处理海量不完整数据的金融机构而言,这种方法不仅提升了风险识别的准确性,更开辟了数据利用的新思路。在数字经济时代,当数据质量参差不齐成为常态时,这种"接纳不完美"的智能分析方法显得尤为珍贵。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号