兼顾透明度与预测力：将可解释机器学习（Explainable Machine Learning, XML）集成至精算模型（Actuarial Modelling）

《British Actuarial Journal》：Bridging transparency and predictive power: integrating explainable ML into actuarial modelling

【字体：大中小】 时间：2026年06月10日 来源：British Actuarial Journal

编辑推荐：

　　摘要：健康与护理（Health and Care, H&C）精算师因近期数据科学进展——尤其是机器学习（Machine Learning, ML）技术日趋透明且易于获取——而处于充分利用其优势的有利位置。ML 的发展使精算师能够捕捉传统广义线性模型（G

摘要：健康与护理（Health and Care, H&C）精算师因近期数据科学进展——尤其是机器学习（Machine Learning, ML）技术日趋透明且易于获取——而处于充分利用其优势的有利位置。ML 的发展使精算师能够捕捉传统广义线性模型（Generalised Linear Model, GLM）难以刻画的非线性模式及交互作用，同时不牺牲令 GLM 成为精算实务核心的清晰度与治理优势。研究人员使用大型人寿保险数据集，演示并评估三种新兴混合方法：可解释的增强线性模型（Interpretable Boosted Linear Model, IBLM）、由 XGBoost 指导的 GLM（XGBoost-informed GLM），以及交互作用检测工作流（Interaction Detection Workflow）。研究发现，通过将 ML 洞察融入传统建模技术，精算师可借助泊松偏差（Poisson Deviance）衡量的建模精度得以提升，在实现可解释性、专家判断与现代分析创新之间取得切实可行的平衡。

论文解读：《British Actuarial Journal》——兼顾透明度与预测力：将可解释机器学习集成至精算建模

一、研究背景与意义

在人寿与健康保险精算实务中，定价与费用管理依赖于对各因素下死亡率（mortality）和发病率（morbidity）的可靠估计。与传统非寿险精算相比，人寿与健康数据面临独特挑战：死亡及发病事件属稀有事件（尤其年轻人），特定细分群体风险暴露（exposure）稀疏，可信因子交互会使赔案计数迅速分散至低频数单元格，导致精算师长期在模型丰富度与统计可信度间权衡。

广义线性模型（Generalised Linear Model, GLM）通过连接函数与指数族分布假定构建了精算标准框架，辅以LASSO、岭回归（Ridge）、弹性网络（Elastic Net）及广义加性模型（Generalised Additive Model, GAM）、多项式等平滑技术控制方差与过拟合，但其日常应用基本范式未变。GLM 的优势在于透明度、可解释性及满足治理要求（governance readiness），便于精算验证、沟通与评审；局限则是捕捉复杂非线性关系及变量交互作用需大量人工设定，能力有限。

与此同时，机器学习（Machine Learning, ML）方法如梯度提升机（Gradient Boosting Machines, GBM，典型代表为 XGBoost）与神经网络可自动捕获非线性与交互效应而无须先验指定，但受限于监管审查、解释困难及隐私考量，在精算领域应用受限。现有文献多主张用 ML 增强而非替代传统模型，包括用 ML 做特征工程（识别非线性、聚类或分箱）、用 ML 做诊断探索工具检测非线性/交互以辅助后续 GLM 类模型、或用 ML 修正基线模型未捕获信号。然而这些方法多孤立评估，缺乏在同一数据集与指标下对混合方法在预测性能、透明度、治理就绪度及建模师可控性方面的系统比较。人寿保险死亡率数据为弥合此研究断层提供了良好案例。

为此，研究人员评价三种将梯度提升集成至加性精算模型（additive model framework）的混合方法——可解释增强线性模型（Interpretable Boosted Linear Model, IBLM；Gawlowski & Wang, 2025）、交互作用检测框架（Interaction Detection Approach；Tam & Luteijn, 2025）及 XGBoost 指导的 GLM（XGBoost-informed GLM）——旨在保留适合精算部署的显式加性结构，探讨其在预测准确性、透明度、治理就绪度和建模师控制间的权衡，该研究成果发表于《British Actuarial Journal》。

二、主要关键技术方法

研究人员使用美国精算学会（Society of Actuaries, SoA）个人寿险经验委员会（Individual Life Insurance Experience Committee, ILEC）公开的人寿保险经验数据集（ILEC data，观测年度2012–2019，定期险，终滤后含273,402件赔案、约1.6018亿人年风险暴露），选取观察年度（Observation_Year）、性别（Sex）、吸烟状况（Smoker_Status）、保单持续期（Duration）、保额档位（Face_Amount_Band）及达到年龄（Attained_Age）为建模特征。数据按随机80/20切分及按观察年度（训练2012–2017，测试2018–2019）双分区评估。基线模型含泊松（Poisson）分布的 GAM、GLM 及 LASSO；黑盒基准为以 GLM/GAM 预测对数为偏移量（offset）的 XGBoost；混合方法含：①IBLM（GLM + XGBoost 残差校正，树深2和3分别训练）；②XGBoost 指导 GLM（据 XGBoost SHAP 依赖图确定样条节点手工构建 GLM 公式）；③交互作用检测法（XGBoost 拟合基线残差识别重要两两交互并回代入重建 GAM/GLM/LASSO 最终加性模型）。统一采用泊松偏差（Poisson Deviance）较 ILEC VBT 2015 基值的平均改善幅度为预测性能指标，并从建模师可控性、透明度（加性结构可视化）、治理就绪度三角度定性评价。

三、研究结果

3.1 预测性能（Predictive Performance）

在随机切分与2018–2019跨时测试集上，黑盒 XGBoost 模型泊松偏差改善最高。三种混合方法中，交互作用检测法较基准改善最大；其中 GAM 作为最终模型（Model 8）表现最优。IBLM 优于各基线及 XGBoost 指导 GLM，但不及交互作用检测法（随机切分）；而在跨时测试中 IBLM 表现弱于其余模型，推测因其内部提升模型无法外推观察年度效应。XGBoost 指导 GLM 性能取决于建模师辨别信号与噪声及手工特征工程能力。

3.2 分析洞察（Analysis Insight）

•
特征重要性（Feature Importance）：各模型排序相近，XGBoost 显示达到年龄（Attained_Age）最重要（约70%增益贡献），印证其与死亡率的指数关系；保额档位（Face_Amount_Band）次之，高于吸烟状况、持续期和性别，可能与美数据保额跨度大（>13%人年超100万美元）有关。交互重要性前两位为保额档位×达到年龄、持续期×保额档位，后者在 ILEC 数据中较英国 CMI 研究更显著，归因于保额范围、收入不平等及承保严度差异。
•
偏依赖（Partial Dependency）：基线 GAM 显示达到年龄20–30岁存在死亡率升高（青年超额死亡峰——excess mortality hump），30岁出头最低；吸烟者较非吸烟者死亡率高约150%；保额低于10万美元档位死亡率明显偏高，≥10万档位逐步下降；持续期呈超20年选择效应（select shape），可能混入产品Preferred分类演进未调整因素。含交互的最终 GAM 揭示：保额<10万在全龄段死亡率偏高，30–40岁各保额档差异最大随后收敛，70岁后≥10万档无差异但<10万仍高；保额<10万几无选择期效应（弱核保），≥10万有典型选择衰减形态。

四、讨论与结论翻译

研究人员指出，三种混合方法均优于基线 GLM/GAM/LASSO 但不及黑盒 XGBoost。交互作用检测法两测试集表现最佳；GAM 优于同框架下 GLM 与 LASSO，归功于灵活曲线拟合配 L2 正则与数值特征粗糙度惩罚。IBLM 此前未用于人寿健康数据，若初始 GLM 严重欠拟合（如年龄仅线性项），残差信号过多影响提升效果与外推稳健性。

建模师控制方面：IBLM 自动化程度最高，少人工干预，可通过约束树深与单调约束调控；交互作用检测法与 XGBoost 指导 GLM 将 XGBoost 作诊断工具，建模师直接指定函数形式（对数变换、三角函数等）植入领域知识，利于外推与解读，但性能依赖专业水平。

透明度与治理就绪：交互作用检测法与 XGBoost 指导 GLM 产出具显式主效应与交互项的加性模型，回归系数/样条可可视化核查，支持验证与治理审阅。IBLM 最终输出为 GLM 叠加密集树深相关的 SHAP 派生 β 调整（beta-adjustments），较深树损害可解释性，但流程标准化减少因文档记录不佳引入的治理风险。

适用性：虽用死亡率数据演示，但残差提升、交互检测与 SHAP 驱动特征工程本质适用于各类稀有事件计数/暴露建模任务（发病率、失能收入险、退保率、欺诈检测等）。

结论翻译如下：

据研究人员所知，这是首项使用共同数据集与评估协议，沿治理相关维度（非仅预测精度）系统评价 GLM–ML 混合方法的精算研究。所考量维度中无一模型全面占优；三种混合方法分布于自动化、建模师控制与透明度之权衡光谱上。全自动 IBLM 提供开箱即用的性能且只需极少手动介入，适合时限紧或欠缺领域知识手工构造回归公式的建模者。较手工化的 XGBoost 指导 GLM 与交互作用检测法允许资深建模师将领域知识直接嵌入，尤擅捕捉非线性与交互效应，保留显式加性结构并天然支持连续特征外推，利于需前瞻判断的精算应用。综上，混合建模框架为将前沿黑盒模型引入精算实务提供了灵活务实路径；精算师希望超越纯 GLM 而不牺牲透明度时，此类混合方法代表了切实可行的折中方案。

热点排行