基于机器学习预测高风险青少年的次日被动性自杀意念

《Suicide and Life-Threatening Behavior》:Predicting Next-Day Passive Suicidal Ideation in At-Risk Youth

【字体: 时间:2026年07月03日 来源:Suicide and Life-Threatening Behavior 2.5

编辑推荐:

  被动性自杀意念(SI)是自杀行为的公认风险因素,但相较于主动性自杀意念(active SI),其受关注程度较低。尽管近期研究已利用密集纵向数据(intensive longitudinal data)和机器学习(ML)预测主动性SI的短期风险,被动性SI作为预

  
被动性自杀意念(SI)是自杀行为的公认风险因素,但相较于主动性自杀意念(active SI),其受关注程度较低。尽管近期研究已利用密集纵向数据(intensive longitudinal data)和机器学习(ML)预测主动性SI的短期风险,被动性SI作为预测靶点仍研究不足。本研究纳入78名精神科住院青少年(13–17岁),在出院后28天内完成基线评估和每日风险及保护因素评定。研究人员训练多种机器学习模型以预测次日被动性SI的出现,并比较纳入与未纳入基线变量的模型,以评估时变特征(time-varying features)与基线特征的相对预测价值。机器学习模型以高准确度预测了次日被动性SI(AUC=0.90)。最强预测因子为个体内部7天移动平均的被动性SI持续时间与频率。纳入基线变量对模型性能影响微乎其微,即使在出院后初期亦不例外。研究表明,短期被动性SI仍是自杀预防中未被充分利用但至关重要的靶点;利用机器学习预测次日被动性SI具有可行性且准确度较高;个体内部时变特征优于基线因素,即使在出院后早期阶段亦然。未来需进一步研究SI维度(如持续时间)。将被动性SI整合入个性化干预框架或可提升自杀预防工作的精准性。
自杀意念(suicidal ideation, SI)是预测未来自杀尝试和死亡的关键指标之一。在美国,自杀已成为10–14岁青少年的第二大死因、15–24岁青年的第三大死因。青少年期是自杀死亡人数增长最陡峭的过渡阶段,且多数自杀未遂者的首次 suicidal thoughts 即出现在青少年时期;此外,青少年报告的SI总体发生率高于成人。SI包含被动性SI(一般性求死愿望)和主动性SI(关于结束自己生命的想法)两种形态,后者从一般性自伤想法到具有 intent 和 plan 的自杀想法构成连续谱。尽管两者均为自杀行为的重要风险因素,但现有文献主要聚焦于主动性SI,被动性SI研究相对匮乏。近期 meta 分析显示,被动性SI在流行病学样本中终生患病率近11%,在精神科人群中高达50%,且与未来自杀尝试及自杀死亡相关。人际自杀理论(Interpersonal Theory of Suicide, IPTS)和三步自杀理论(Three-Step Theory of Suicide, 3ST)均强调区分不同形态SI的重要性,认为从较轻度意念向较严重形态及最终行为的进展由部分不同的心理过程所调控。已有研究开始利用密集纵向方法(intensive longitudinal methods)将被动性SI作为时变结局进行考察,但此类研究多针对成人,针对青少年的研究仅有一项。与此同时,近期研究已采用机器学习方法预测主动性SI的发生,但迄今尚无研究利用机器学习对被动性SI进行短期预测。

本研究旨在扩展近期SI预测研究,利用机器学习方法预测临床高风险青少年样本中次日被动性SI的出现。鉴于该领域先前工作稀缺,本研究为探索性机器学习研究,首要目标是预测而非解释,并为未来验证性研究生成假设。具体研究问题包括:第一,建立各种机器学习技术预测次日被动性SI的准确度,与既往主动性SI预测研究的准确度进行比较;第二,探索预测被动性SI最重要的预测因子,候选预测因子包括横断面基线测量和每日重复测量的理论相关构念(如 hopelessness、perceived burdensomeness)及其他临床意义变量;第三,比较横断面基线数据与密集纵向数据在时间维度上的相对重要性,特别是在出院后初期这一脆弱窗口期,当新患者几乎没有既往评估数据时,基线信息是否因时间推移而被重复评估所补充或替代具有重要实践意义。

本研究为干预试点研究的二次数据分析,样本为78名因近一月内自杀尝试或近一周内有自杀想法伴方法、intent 或 plan 而精神科住院的13–17岁青少年,于2019年3月至2020年1月期间自 single site(Michigan Medicine)招募。参与者出院后4周内通过短信自动接收每日调查,完成率为74.2%。基线测量包括人口学变量(生物性别、年龄、性少数身份、性别少数身份)和临床风险因素(抑郁症状、焦虑症状、hopelessness、多次自杀尝试史、终生非自杀性自伤频率),分别采用患者健康问卷-9青少年版(PHQ-9)、广泛性焦虑障碍-7问卷(GAD-7)等工具评估。每日测量包括情感状态(happy、sad、miserable,改编自PANAS-C)、agitation(Brief Agitation Measure 项目)、connectedness 与 burdensomeness(改编自INQ)、hopelessness、rumination、worry、self-efficacy to resist suicide,以及改编自哥伦比亚自杀严重程度评定量表(C-SSRS)的被动性和主动性SI频率与持续时间。

数据分析方面,从每个每日测量构念中提取三种特征:7天移动平均、7天移动标准差(反映近期功能),以及偏离7天移动平均的日度偏差(反映近期变化);第1–6天使用所有先前日期的数据计算。共构建53个预测因子,包括9个基线特征、42个重复测量特征、缺失指示变量及连续时间变量。结果变量为次日被动性SI的有无(由连续频率变量二分类化)。使用 persistence model(以前一日被动性SI频率预测当日)作为基准比较。训练六种机器学习模型评估基线与时变特征的相对重要性:两种版本(含/不含基线特征)×三种算法(二项 elastic net、联合 elastic net、随机森林)。二项 logistic elastic net 使用 glmnet 包训练,以最大化AUC选择正则化超参数;联合模型(joint model)为多项 logistic elastic net,同时预测被动性和主动性SI的四分类组合;随机森林使用 randomForest 包,选择 ntree 和 mtry 以最大化交叉验证AUC。所有模型采用分块嵌套交叉验证策略:内层5折交叉验证调参,外层留一出法(leave-one-person-out cross-validation)收集预测结果,以整合嵌套结构重复观测并最大化样本量。

主要技术方法为:基于密集纵向生态瞬时评估(ecological momentary assessment, EMA)数据的机器学习预测建模,采用 blocked and nested cross-validation 策略,运用 elastic net 正则化回归(含 LASSO 惩罚)、多项联合建模及随机森林算法,通过个体内部时间序列特征(7天移动统计量)捕获时变动态,并与传统基线风险因素比较预测效能。

研究结果部分主要包括以下内容。

被动性与主动性SI的分布特征:主动性SI和被动性SI分别出现在631(28.9%)和729(33.3%)人日中;77名参与者中66人(85.71%)报告至少一次被动性SI;30次(4.7%)主动性SI出现于无被动性SI时,而128次(17.5%)被动性SI出现于无主动性SI时。被动性SI比主动性SI更频繁,更可能单独出现。

机器学习模型预测效能:persistence model 的AUC为0.832;其他模型AUC均接近0.9,elastic net、联合模型和随机森林之间差异微小(AUC=0.896–0.901)。纳入基线特征对模型预测能力影响可忽略(表2)。敏感性和特异性方面亦有类似发现,随机森林敏感性相对较低(表3)。

逐日预测性能:随时间推移,纳入基线变量的模型与未纳入者相比,AUC未获提升,即使在研究初期亦如此。该趋势在联合模型和随机森林中同样存在。

特征重要性分析:LASSO回归系数显示,含与不含基线特征的模型中,最具信息量的预测因子非常相似。最强预测因子为被动性SI相关特征,其中7天平均被动性SI持续时间系数最大,其次为7天平均被动性SI频率。含基线预测因子的普通最小二乘回归 R2=0.5171,不含基线者为0.5115,差异微小。

讨论部分首先强调,本研究是首次利用机器学习预测次日被动性SI的 Anchored Study,结果为该领域提供了初步基准。研究发现,时变构念的重复观测比基线初始特征更能识别次日 death wishes,即使在出院后初期重复观测相对稀缺的“冷启动”(cold start)阶段亦然;在所有考察的时变特征中,被动性SI的维度(持续时间、频率)是最强预测因子。

具体而言,不同复杂度的机器学习模型均显示次日被动性SI可被良好预测(AUC=0.896–0.901),最佳模型为相对简单的 Elastic Net 回归,更复杂的非线性或联合模型未能改善预测。此结果与既往研究一致,即算法复杂度未必带来显著优势,简单模型因更易解释而可能更受青睐,这对将模型整合入常规实践至关重要。当前结果与预测青少年主动性SI的准确度相当,略优于预测成人主动性SI的准确度。尽管被动性SI常被视为较不严重、被主动性SI所涵盖的连续谱一端,但单独预测被动性SI具有重要临床意义:被动性SI存在显著风险,部分自杀未遂者从未经历主动性SI;仅关注主动性SI可能遗漏对这一普遍现象的预防和干预机会。

研究进一步探讨了初始特征与时变特征的相对价值。尽管自杀预防领域日益重视 trait-like 特征与 state-level 风险指数的结合,但两者差异化重要性在真实情境中探索不足。本研究设计凸显独特挑战:住院后首周为SI和行为的高风险期,却正是重复观测最少的时期。若基线构念能通过个性化改善预测,则预期其应为基本预测模型贡献有用信息,但事实并非如此——即使在研究初期纳入基线特征(包括基线-日期交互项加权)亦未能提升预测。这提示基于本研究所评估初始特征进行聚类的价值有限,而基于密集测量时间序列特征的模型可能更有前景。

关于理论构念,尽管纳入了 well-known 风险因素,被动性SI的具体维度本身仍是最有用预测因子。7天平均被动性SI持续时间为最强预测因子,其次为频率。持续时间的重要性与既往发现一致:持续时间是指示次日主动性SI的关键指标、未来精神科急诊的预测因子及未来自杀尝试几率的标志物。延长的被动性SI持续时间可能反映了对自杀想法的持续卷入,可能索引 suicide-specific rumination,尽管该研究未直接评估此种 rumination。持续时间作为预测因子的突出地位支持了旨在通过增强认知灵活性和替代方案意识来管理持续性SI的干预,如问题解决疗法(problem-solving therapy)或针对 rumination 的正念认知疗法(mindfulness-based cognitive therapy)。

除被动性SI维度外,预测因子的重要性模式提供了若干理论相关启示,但本研究未能在短 time scale 上全面评估主要 ideation-to-action 自杀理论。与被动性SI维度相比,若干理论驱动构念(如7天平均 hopelessness 和 connectedness)未进入最强预测因子行列。一种可能解释是,主要SI理论对短期被动性SI预测的启示性较弱,而更适用于解释较长 interval(如数月或数年)内自杀风险的发展维持;这与近期密集纵向研究测试IPTS的证据一致。值得注意的是,7天平均 burdensomeness 在最强预测因子中排名靠前(仅次于被动性SI持续时间和频率),这与既往工作显示的 perceived burdensomeness 相对 thwarted belongingness 与SI关联更稳健一致。尽管本研究优化于预测而非理论检验,发现仍为短期被动性SI提供了理论相关启示;未来需专门设计研究以明确理论驱动构念在SI连续谱不同 time scale 上的运作差异。

综合上述结果,追踪被动性SI频率和持续时间的每日评定对预测近程被动性SI具有重要意义。增加模型复杂度、联合建模主动性SI、纳入初始基线特征均未能增量提升预测准确度。未来研究者在决定评估何种构念及何时评估时,可聚焦于被动性SI维度的密集纵向评估而非冗长的基线症状 battery。本研究纳入的九项基线预测因子未证明有用,这与 Franklin 等人关于 comprehensive risk factor inventories 临床效用甚微的发现一致,支持将关注点从风险因素转向机器学习算法。

实践层面,研究发现强烈提示临床医生应优先保证被动性SI维度的一致性重复评估。移动健康技术可为规模化的SI监测提供途径。既往工作表明,临床医生对高风险期额外监测和反馈持积极态度。实时个性化预防策略(如 Just-in-Time Adaptive Interventions)依赖预测近程风险状态的 forecast 以部署及时支持,而本研究证实简单模型对此类预防技术已足够;此类预测可用于触发简短支持性回应,如提醒使用应对策略或危机资源。

研究优势包括:高风险青少年样本、关键高风险窗口期进行、结合样本特征与重复观测以探索 trait- 与 state-level 预测因子相对重要性及预测性能随时间演化、采用严格的分块嵌套交叉验证增强模型泛化信心。局限性包括:虽经仔细交叉验证,独立数据集复制将提供最强化泛化证据;样本量相对较小(N=77)、人口学文化同质性高、单中心招募;被动性SI持续时间缺失率高(82%),虽采用线性回归 imputation 且模型稳健,但大量 imputed 值可能降低变异性,故持续时间相关发现应视为初步并谨慎解读;关键构念采用改编自C-SSRS的单项评估以减轻负担,虽EMA adapted 单项SI指标心理测量学支持日益增加,但正式验证尚不充分;每日自我报告可能存在回忆偏倚;预测靶点为意念而非自杀行为,任何建议均需在此区分下解读。

研究结论:本研究凸显了实时监测和机器学习预测被动性SI短期风险的高准确度潜力,从而增强自杀预防工作。研究发现时变指标——特别是被动性SI的频率和持续时间——可作为被动性SI的近程预测因子,且显著优于初始基线特征。然而,鉴于当前样本中 statstically derived 值比例较高,被动性SI持续时间的预测效用应谨慎解读。未来需在更大、更多样化的高风险人群中确认时变预测因子的预测效用,包括直接测量的被动性SI持续时间,并评估如何将这些发现实施到实时个性化自杀预防策略中。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号