相关泊松分布:一种同时处理过离散和正相关的计数数据建模方法及其在车险精算中的应用
《Annals of Actuarial Science》:Dealing simultaneously with overdispersion and positive correlation through the correlated Poisson distribution: a suitable distribution for describing the number of claims
【字体:
大
中
小
】
时间:2025年12月13日
来源:Annals of Actuarial Science 1
编辑推荐:
本文推荐研究人员针对纵向计数数据中普遍存在的过离散和正相关共现问题,开展了关于相关泊松分布(CPD)的深入研究。该研究系统回顾了CPD的理论性质,提出了参数估计方法,并将其应用于车险理赔次数建模。结果表明,CPD能有效捕捉数据相关性,相比传统泊松和负二项分布展现出更好拟合效果,为精算科学提供了新的建模工具。
在保险精算领域,准确预测保单持有人的理赔次数是保费定价和风险管理的基础。传统上,精算师们常使用泊松分布来描述理赔次数的随机性。然而,现实世界的数据往往比理想模型复杂得多:实际数据经常出现方差大于均值的“过离散”现象,以及不同时期理赔次数之间的“正相关”关系。例如,一个驾驶习惯不良的投保人,很可能在连续几年内都保持较高的理赔频率;而居住在相同地区的不同驾驶人,由于面临相似的道路交通环境,其理赔记录也可能呈现出一定的相关性。忽视这些数据特征,可能导致保费定价偏差和风险评估失真。
长期以来,处理这类复杂计数数据的模型往往存在各种局限。广义线性混合模型虽然能够引入随机效应,但解释性较弱;零膨胀模型能够处理过多的零计数,但对相关性的刻画不足;而传统的泊松分布则严格假设事件独立且方差等于均值,无法应对过离散和相关的挑战。因此,开发一个既能同时捕捉过离散和正相关性,又便于在精算实践中应用的统计模型,成为了一个重要的研究课题。
发表在《Annals of Actuarial Science》上的这项研究,深入探讨了由Drezner和Farnum于1994年提出的相关泊松分布(Correlated Poisson Distribution, CPD),旨在将其发展为车险理赔次数建模的有效工具。CPD是经典泊松分布的一个推广,它通过引入一个额外的参数θ来度量连续观测值之间的相关性。当θ=0时,CPD退化为普通的泊松分布;当θ>0时,分布呈现出正相关和过离散的特性,其方差为λ/(1-2θ),明显大于均值λ。研究表明,CPD不仅概率母函数可表示为闭合形式,便于计算各阶矩,而且还具有无限可分性、厚尾性等优良性质,非常适合描述保险数据中常见的“少数保单产生多数理赔”的现象。
为了验证CPD的实用性,研究人员采用了多种参数估计方法,包括矩估计法、均值-零比例法和最大似然估计法。最大似然估计通过求解一个复杂的非线性系统来实现,虽然计算量大,但估计精度最高。此外,研究还展示了如何将协变量(如投保人年龄、车辆年限、行驶区域等)通过对数连接函数引入到CPD的均值参数中,建立回归模型,从而评估不同风险因素对理赔频率的影响。对于数据中零值过多的情况,研究还探讨了零膨胀和跨栏(Hurdle)两种改进模型。
在实证分析部分,研究利用了多个经典的汽车保险保单数据集,包括比利时(1958年、1975-76年)、扎伊尔(1974年)、英国(1968年)、德国(1960年)和瑞士(1961年)的数据。拟合优度检验(χ2检验)结果显示,CPD模型在大多数案例中的表现优于传统的泊松分布和负二项分布,其p值均大于0.05,表明拟合效果良好。特别是对于德国车险组合数据,虽然负二项分布的贝叶斯信息准则(BIC)值略优,但CPD模型的所有参数均统计显著,模型更为简洁。
进一步地,研究利用一个包含32100条保单的法国汽车保险个人线(freMPL10)数据集,进行了更深入的回归分析。模型比较表明,在引入了12个风险因素作为协变量后,CPD模型的负对数似然值(NLL)、BIC和一致性Akaike信息准则(CAIC)均优于泊松模型,且与负二项模型相当。残差分析(包括普通残差、Pearson残差和Anscombe残差)的Q-Q图和箱线图显示,CPD模型的残差更接近正态分布,且波动范围更小。Vuong检验的Z统计量为1.93(p=0.054),为CPD模型提供了有限的支持证据,表明其在预测精度上可能具有轻微优势。样本外验证使用freMPL6和freMPL8数据集,CPD模型的随机分位数残差基本沿45度线分布,证明了其良好的预测能力。
本研究主要应用了数理统计和精算建模中的关键技术。参数估计采用了矩估计、均值-零比例法和最大似然估计法。模型比较基于似然函数值、贝叶斯信息准则(BIC)、一致性Akaike信息准则(CAIC)和Pearson拟合优度统计量(PS)。回归诊断包括分析普通残差、Pearson残差和Anscombe残差。模型区分使用了Vuong检验。实证分析的数据来源于公开的车险保单数据集,如比利时、德国、瑞士等国的历史数据,以及法国汽车保险个人线(freMPL)数据集。
研究证明了一些Drezner和Farnum原始论文中未讨论的性质。CPD是无限可分的,这意味着它可以表示为复合泊松分布,这在聚合风险模型中非常有用。其标准化后的变量在λ→∞时依分布收敛于标准正态分布。研究还建立了CPD的随机序关系,并推导了在指数保费原理和Esscher保费原理下的保费计算公式,显示考虑相关性后保费通常高于传统泊松模型。
在多个车险数据集上的拟合结果显示,CPD能很好地捕捉数据的分布形态,尤其是在尾部。与泊松和负二项(NB)分布相比,CPD在大多数情况下的χ2统计量更小,p值更大,表明其拟合优度更佳。在法国车险数据中,CPD回归模型的BIC和CAIC值低于泊松模型,与NB模型竞争激烈。
将CPD扩展到包含协变量的回归模型后,风险因素(如驾驶证龄、车辆用途、奖惩系统等)的系数估计与NB和泊松模型的结果大体一致,但CPD模型中的“车辆车龄”(Veh age)变量变得不显著,体现了参数θ对部分变异性的吸收,使模型更简洁。残差诊断图显示CPD模型的残差行为良好。
研究简要探讨了CPD的两种扩展方向。一是通过Sarmanov族Copula构建二元CPD模型,以描述不同保险责任之间的相依结构。二是将CPD的均值参数λ视为随机效应(假设其服从伽马分布),从而得到一种更具弹性的混合分布,即“相关负二项分布”,当θ=0时该分布退化为经典负二项分布。
本研究表明,相关泊松分布(CPD)是一个理论性质优良且实用价值高的计数数据模型。它通过一个直观的参数θ同时解决了过离散和正相关两个关键问题,弥补了传统泊松分布和负二项分布在处理序列相关性方面的不足。在车险理赔次数建模中,CPD展现出优异的拟合性能和预测能力,为精算师提供了新的风险分类和保费定价工具。
这项研究的意义在于它系统性地将CPD引入精算科学领域,并为其建立了完整的统计推断框架。未来的研究方向包括开发CPD的贝叶斯估计方法、深入研究其在聚合风险模型中的应用,以及探索其在Bonus-Malus系统(奖惩系统)中的潜力。总之,CPD为分析复杂的纵向计数数据提供了一个强大而灵活的替代方案,尤其在数据存在内在相关性的场景下具有广阔的应用前景。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号