兼顾透明度与预测力:将可解释机器学习(Explainable Machine Learning, XML)集成至精算模型(Actuarial Modelling)

《British Actuarial Journal》:Bridging transparency and predictive power: integrating explainable ML into actuarial modelling

【字体: 时间:2026年06月10日 来源:British Actuarial Journal

编辑推荐:

  摘要:健康与护理(Health and Care, H&C)精算师因近期数据科学进展——尤其是机器学习(Machine Learning, ML)技术日趋透明且易于获取——而处于充分利用其优势的有利位置。ML 的发展使精算师能够捕捉传统广义线性模型(G

  
摘要:健康与护理(Health and Care, H&C)精算师因近期数据科学进展——尤其是机器学习(Machine Learning, ML)技术日趋透明且易于获取——而处于充分利用其优势的有利位置。ML 的发展使精算师能够捕捉传统广义线性模型(Generalised Linear Model, GLM)难以刻画的非线性模式及交互作用,同时不牺牲令 GLM 成为精算实务核心的清晰度与治理优势。研究人员使用大型人寿保险数据集,演示并评估三种新兴混合方法:可解释的增强线性模型(Interpretable Boosted Linear Model, IBLM)、由 XGBoost 指导的 GLM(XGBoost-informed GLM),以及交互作用检测工作流(Interaction Detection Workflow)。研究发现,通过将 ML 洞察融入传统建模技术,精算师可借助泊松偏差(Poisson Deviance)衡量的建模精度得以提升,在实现可解释性、专家判断与现代分析创新之间取得切实可行的平衡。
论文解读:《British Actuarial Journal》——兼顾透明度与预测力:将可解释机器学习集成至精算建模
一、研究背景与意义
在人寿与健康保险精算实务中,定价与费用管理依赖于对各因素下死亡率(mortality)和发病率(morbidity)的可靠估计。与传统非寿险精算相比,人寿与健康数据面临独特挑战:死亡及发病事件属稀有事件(尤其年轻人),特定细分群体风险暴露(exposure)稀疏,可信因子交互会使赔案计数迅速分散至低频数单元格,导致精算师长期在模型丰富度与统计可信度间权衡。
广义线性模型(Generalised Linear Model, GLM)通过连接函数与指数族分布假定构建了精算标准框架,辅以LASSO、岭回归(Ridge)、弹性网络(Elastic Net)及广义加性模型(Generalised Additive Model, GAM)、多项式等平滑技术控制方差与过拟合,但其日常应用基本范式未变。GLM 的优势在于透明度、可解释性及满足治理要求(governance readiness),便于精算验证、沟通与评审;局限则是捕捉复杂非线性关系及变量交互作用需大量人工设定,能力有限。
与此同时,机器学习(Machine Learning, ML)方法如梯度提升机(Gradient Boosting Machines, GBM,典型代表为 XGBoost)与神经网络可自动捕获非线性与交互效应而无须先验指定,但受限于监管审查、解释困难及隐私考量,在精算领域应用受限。现有文献多主张用 ML 增强而非替代传统模型,包括用 ML 做特征工程(识别非线性、聚类或分箱)、用 ML 做诊断探索工具检测非线性/交互以辅助后续 GLM 类模型、或用 ML 修正基线模型未捕获信号。然而这些方法多孤立评估,缺乏在同一数据集与指标下对混合方法在预测性能、透明度、治理就绪度及建模师可控性方面的系统比较。人寿保险死亡率数据为弥合此研究断层提供了良好案例。
为此,研究人员评价三种将梯度提升集成至加性精算模型(additive model framework)的混合方法——可解释增强线性模型(Interpretable Boosted Linear Model, IBLM;Gawlowski & Wang, 2025)、交互作用检测框架(Interaction Detection Approach;Tam & Luteijn, 2025)及 XGBoost 指导的 GLM(XGBoost-informed GLM)——旨在保留适合精算部署的显式加性结构,探讨其在预测准确性、透明度、治理就绪度和建模师控制间的权衡,该研究成果发表于《British Actuarial Journal》。
二、主要关键技术方法
研究人员使用美国精算学会(Society of Actuaries, SoA)个人寿险经验委员会(Individual Life Insurance Experience Committee, ILEC)公开的人寿保险经验数据集(ILEC data,观测年度2012–2019,定期险,终滤后含273,402件赔案、约1.6018亿人年风险暴露),选取观察年度(Observation_Year)、性别(Sex)、吸烟状况(Smoker_Status)、保单持续期(Duration)、保额档位(Face_Amount_Band)及达到年龄(Attained_Age)为建模特征。数据按随机80/20切分及按观察年度(训练2012–2017,测试2018–2019)双分区评估。基线模型含泊松(Poisson)分布的 GAM、GLM 及 LASSO;黑盒基准为以 GLM/GAM 预测对数为偏移量(offset)的 XGBoost;混合方法含:①IBLM(GLM + XGBoost 残差校正,树深2和3分别训练);②XGBoost 指导 GLM(据 XGBoost SHAP 依赖图确定样条节点手工构建 GLM 公式);③交互作用检测法(XGBoost 拟合基线残差识别重要两两交互并回代入重建 GAM/GLM/LASSO 最终加性模型)。统一采用泊松偏差(Poisson Deviance)较 ILEC VBT 2015 基值的平均改善幅度为预测性能指标,并从建模师可控性、透明度(加性结构可视化)、治理就绪度三角度定性评价。
三、研究结果
3.1 预测性能(Predictive Performance)
在随机切分与2018–2019跨时测试集上,黑盒 XGBoost 模型泊松偏差改善最高。三种混合方法中,交互作用检测法较基准改善最大;其中 GAM 作为最终模型(Model 8)表现最优。IBLM 优于各基线及 XGBoost 指导 GLM,但不及交互作用检测法(随机切分);而在跨时测试中 IBLM 表现弱于其余模型,推测因其内部提升模型无法外推观察年度效应。XGBoost 指导 GLM 性能取决于建模师辨别信号与噪声及手工特征工程能力。
3.2 分析洞察(Analysis Insight)
  • 特征重要性(Feature Importance):各模型排序相近,XGBoost 显示达到年龄(Attained_Age)最重要(约70%增益贡献),印证其与死亡率的指数关系;保额档位(Face_Amount_Band)次之,高于吸烟状况、持续期和性别,可能与美数据保额跨度大(>13%人年超100万美元)有关。交互重要性前两位为保额档位×达到年龄、持续期×保额档位,后者在 ILEC 数据中较英国 CMI 研究更显著,归因于保额范围、收入不平等及承保严度差异。
  • 偏依赖(Partial Dependency):基线 GAM 显示达到年龄20–30岁存在死亡率升高(青年超额死亡峰——excess mortality hump),30岁出头最低;吸烟者较非吸烟者死亡率高约150%;保额低于10万美元档位死亡率明显偏高,≥10万档位逐步下降;持续期呈超20年选择效应(select shape),可能混入产品Preferred分类演进未调整因素。含交互的最终 GAM 揭示:保额<10万在全龄段死亡率偏高,30–40岁各保额档差异最大随后收敛,70岁后≥10万档无差异但<10万仍高;保额<10万几无选择期效应(弱核保),≥10万有典型选择衰减形态。
四、讨论与结论翻译
研究人员指出,三种混合方法均优于基线 GLM/GAM/LASSO 但不及黑盒 XGBoost。交互作用检测法两测试集表现最佳;GAM 优于同框架下 GLM 与 LASSO,归功于灵活曲线拟合配 L2 正则与数值特征粗糙度惩罚。IBLM 此前未用于人寿健康数据,若初始 GLM 严重欠拟合(如年龄仅线性项),残差信号过多影响提升效果与外推稳健性。
建模师控制方面:IBLM 自动化程度最高,少人工干预,可通过约束树深与单调约束调控;交互作用检测法与 XGBoost 指导 GLM 将 XGBoost 作诊断工具,建模师直接指定函数形式(对数变换、三角函数等)植入领域知识,利于外推与解读,但性能依赖专业水平。
透明度与治理就绪:交互作用检测法与 XGBoost 指导 GLM 产出具显式主效应与交互项的加性模型,回归系数/样条可可视化核查,支持验证与治理审阅。IBLM 最终输出为 GLM 叠加密集树深相关的 SHAP 派生 β 调整(beta-adjustments),较深树损害可解释性,但流程标准化减少因文档记录不佳引入的治理风险。
适用性:虽用死亡率数据演示,但残差提升、交互检测与 SHAP 驱动特征工程本质适用于各类稀有事件计数/暴露建模任务(发病率、失能收入险、退保率、欺诈检测等)。
结论翻译如下:
据研究人员所知,这是首项使用共同数据集与评估协议,沿治理相关维度(非仅预测精度)系统评价 GLM–ML 混合方法的精算研究。所考量维度中无一模型全面占优;三种混合方法分布于自动化、建模师控制与透明度之权衡光谱上。全自动 IBLM 提供开箱即用的性能且只需极少手动介入,适合时限紧或欠缺领域知识手工构造回归公式的建模者。较手工化的 XGBoost 指导 GLM 与交互作用检测法允许资深建模师将领域知识直接嵌入,尤擅捕捉非线性与交互效应,保留显式加性结构并天然支持连续特征外推,利于需前瞻判断的精算应用。综上,混合建模框架为将前沿黑盒模型引入精算实务提供了灵活务实路径;精算师希望超越纯 GLM 而不牺牲透明度时,此类混合方法代表了切实可行的折中方案。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号