
-
生物通官微
陪你抓住生命科技
跳动的脉搏
潜在类别多状态分位数回归模型与治愈部分:在美国监狱再犯研究中的应用
【字体: 大 中 小 】 时间:2025年09月15日 来源:Journal of the Royal Statistical Society Series A: Statistics in Society 1.5
编辑推荐:
本研究针对监狱再犯数据中存在未观测异质性和部分个体永不再犯的特点,提出了基于狄利克雷过程先验的潜在类别多状态分位数回归模型(DPM-MSQR-CF)。通过贝叶斯框架和切片采样技术,成功识别出三个潜在风险群体,其中20%人群年再犯率高达2次。该模型解决了传统方法无法处理治愈群体和未观测异质性的问题,为刑事司法政策评估提供了更精准的统计工具。
在美国刑事司法体系中,监狱与看守所(jail)有着重要区别:监狱关押刑期超过一年的已决犯,而看守所主要羁押待审人员或短期服刑者。尽管看守所羁押时间较短(中位数为3周,90%不足6个月),但其收押规模远超监狱,且再犯率惊人——据Durose等2014年研究显示,30州2005年释放的囚犯中67.8%在3年内再被捕。更令人担忧的是,Western等2021年研究发现美国人口中经历至少一次看守所羁押的比例高得惊人。
这种高再犯率现象带来严重的社会问题。看守所羁押不仅影响法庭判决结果、个人收入和家庭生活,更与经济不平等密切相关:Sawyer和Wagner2022年指出67%的审前羁押人员因无力支付保释金而被监禁。然而,看守所的矫正效果始终不明确,传统研究多聚焦监狱再犯,且仅关注是否再犯而非再犯时间,使用的数据往往陈旧或局限于局部地区。
为突破这些局限,Barone和Farcomeni基于NYU公共安全实验室的看守所数据倡议(Jail Data Initiative),获得了2020-2023年间全美1,000多个地区的个体级数据,包含550,994名至少有一次羁押记录的个人,共686,319条观察记录。这是首个同时关注再犯可能性和自由间隔时间的大规模研究。
研究人员创新性地提出了包含治愈部分(cure fraction)的潜在类别多状态分位数回归模型。该模型通过三个核心改进解决传统方法的不足:首先引入治愈指标R(mj)区分会再犯(R(mj)=0)和永不再犯(R(mj)=1)的群体;其次采用狄利克雷过程混合(DPM)自动识别潜在类别而不预设类别数;最后开发了部分批处理MCMC算法,使模型能处理超50万样本的大数据。
技术方法上,研究采用贝叶斯框架下的非对称拉普拉斯分布(ALD)作为工作似然函数,通过切片采样更新潜在类别分配,使用随机游走Metropolis算法估计参数。针对大规模数据(N=550,994),创新性地采用分批次MCMC策略(Ω=50批次),在保证估计精度的同时大幅提升计算效率。
基于Farcomeni和Geraci2020年的多状态分位数回归框架,定义从状态m到j的τ分位数函数Qmj(τ|X)=gmj{β0(mj)(τ)+X′βmj(τ)},其中gmj(·)为对数连接函数,X为协变量向量。该框架通过ALD实现分位数回归的贝叶斯推断。
受Conlon等2014年研究的启发,建立治愈概率模型P(R(mj)=1|Z)=ηmj(γ0(mj)+Z′γmj),其中Z为影响治愈概率的协变量(本研究与X使用相同协变量)。当R(mj)=1时,转移时间Tmj趋于无穷大。
通过离散潜变量K引入未观测异质性,使截距项β0k(mj)和γ0k(mj)随潜在类别变化,形成无限混合模型:f(ti,ci|θ,Xi,Zi)=∑k=0∞wkf(ti,ci|K=k,θ,Xi,Zi)
通过反估计生存函数?mj(t|X,k)=inf{τ:Q?mj(τ|X,k)≤t},计算累计风险函数H?(t)=∫0t-?log(?(v))/?v dv,该指标可解释为预期再犯次数。
模拟结果显示,在存在治愈群体的情况下,传统MSQR模型在τ=0.75分位数的参数估计RMSE高达1.6-1.864,而MSQR-CF模型仅为0.065-0.102。当存在潜在类别时,DPM-MSQR-CF的预测RRMSE为0.059-0.223,显著优于MSQR-CF(0.062-0.235)和MSQR(1.155-1.384)。Yang等2016年的协方差校正方法使95%置信区间覆盖率提升至100%。
应用模型于全美看守所数据发现:
模型拟合优度:DPM-MSQR-CF的WAIC=-7325.079,显著优于无治愈部分的DPM-MSQR(-7232.934)
潜在类别识别:存在三个明显区分的群体
k=1:79.7%人群,中位再犯时间2.1年(Q1=1.28年,Q3=4.54年)
k=2:13.0%人群,中位再犯时间8.5个月
k=3:7.2%人群,中位再犯时间仅3个月
协变量影响:男性再犯时间略短于女性(β1=-0.062~0.024);性犯罪者再犯间隔最长(β4=0.571~0.604);财产犯罪者再犯风险最高(β5=-0.452~-0.345)
累计风险:高风险群体年再犯率达2次,且协变量解释力有限,表明存在重要未观测因素
本研究提出的DPM-MSQR-CF模型有效解决了多状态时间事件数据中的治愈群体识别和未观测异质性处理问题。实证分析揭示美国看守所再犯存在显著分层现象:约20%人群陷入高频再犯循环(年再犯2次),且该现象与人口学特征、犯罪类型等观测变量关联微弱。这一发现对刑事司法政策具有重要启示:传统基于观测变量的风险评估模型可能失效,需开发更精细的潜在类别识别机制。
方法学上,研究贡献包括:首次在分位数回归框架中引入治愈部分;开发基于狄利克雷过程的非参数潜在类别识别;提出可扩展至大数据的批处理MCMC算法。值得注意的是,由于数据局限(无法追踪监狱再犯),"治愈"群体实际包含真正改过自新者和转至监狱者,这一局限未来需通过数据整合解决。
该模型框架可扩展至复发事件、竞争风险等多种多状态场景,为医学、社会科学等领域的持续时间分析提供了强大工具。研究者公开了R代码促进方法推广,为后续研究奠定坚实基础。
生物通微信公众号
知名企业招聘