编辑推荐:
研究人员开发 Event-GRU-ODE 和 Event-GRU-Discretized 模型预测自杀相关行为(SRB)风险,性能良好,助力自杀预防。
自杀风险预测的新突破:从静态到动态
在全球范围内,自杀问题日益严峻,每年有超过 70 万人死于自杀。在美国,尽管各方积极呼吁并努力预防自杀,但自杀率仍持续攀升。有效预防自杀的关键之一,是精准识别出有自杀相关行为(SRB)高风险的个体,以便及时进行干预。
当前,无论是基于临床医生评估,还是结合数据驱动的方法,自杀风险评估大多是在特定时间点进行,将风险视为静态估计值。然而,SRB 风险实际上会随时间波动,这种静态评估方式存在诸多局限。例如,随着预测时间点与实际发生时间间隔的增加,静态风险估计的准确性会下降;而且在缺乏频繁医疗就诊的情况下,风险估计会出现空白期,可能错过高风险时段。因此,开发一种能够连续动态预测 SRB 风险的工具迫在眉睫。
来自美国麻省总医院(Massachusetts General Hospital)等机构的研究人员,为了解决这一难题,开展了一项具有创新性的研究。他们利用大规模电子健康记录(EHR)数据库中的数据,结合神经网络常微分方程(Neural ODEs)这一前沿人工智能技术,开发并验证了两种连续时间、动态风险预测模型 ——Event-GRU-ODE 和 Event-GRU-Discretized。该研究成果发表在《npj Digital Medicine》杂志上,为自杀预防策略的革新带来了新的希望。
研究方法:创新模型的构建基石
研究人员使用的主要技术方法包括以下几个关键部分:
- 数据来源:数据源自美国麻省总医院医疗系统的研究电子健康记录数据注册库(RPDR),涵盖了 2016 年 1 月 1 日至 2019 年 12 月 31 日期间,超过 170 万患者的信息,这些患者具有广泛的人口统计学和临床特征。
- 模型构建:基于神经网络常微分方程,研究人员构建了 Event-GRU-ODE 和 Event-GRU-Discretized 模型。其中,Event-GRU-ODE 模型将事件发生视为连续时间随机过程,通过潜在变量过程和常微分方程来描述 SRB 风险随时间的变化;Event-GRU-Discretized 模型则在 Event-GRU-ODE 模型的基础上,放宽了潜在向量连续性假设,使模型更加灵活。
- 模型训练与评估:研究人员将数据随机分为 10 折,其中 8 折用于训练,1 折用于验证调整超参数,1 折用于测试评估。训练过程使用 Adam 优化器,评估指标包括受试者工作特征曲线下面积(AUROC)、精确召回曲线下面积(AUPRC)、阳性预测值(PPV)和敏感度等,特异性设定为 0.95。
研究结果:模型性能卓越,展现巨大潜力
- 患者队列特征:参与研究的患者中,女性占比较高(约 58%),多数为白人(训练 / 验证集占 77.8%,测试集占 77.6%),年龄集中在 45 - 65 岁。大部分患者在研究期间的医疗就诊次数较少,少于 50 次。
- 主模型性能指标:两种模型在不同预测窗口下均表现出良好的判别能力,AUROC 均大于 0.9。1 个月预测窗口时,Event-GRU-ODE 的 AUROC 为 0.942,Event-GRU-Discretized 为 0.941;1.5 年预测窗口时,两者的 AUPRC 和 PPV 达到最高。尽管数据中 SRB 患病率较低(0.01 - 0.12%),导致 AUPRC 和 PPV 数值相对较低,但高风险人群发生 SRB 的可能性是低风险人群的 15 倍左右。
- 患者病史时长和上次观察时间对模型性能的影响:一般来说,较长的患者病史轨迹有助于提高模型性能,但 1 个月预测窗口的 AUPRC 曲线除外。同时,即使距离上次观察时间较长,模型在至少 1 年内仍能保持较高的判别性能(AUROC 约为 0.90)。
- 临床环境和人口统计学因素的亚组分析:在 “Psych ED” 和 “Psych Inpatient” 队列中,AUPRC 和 PPV 显著高于 “General” 队列,这可能与这两个亚组中 SRB 事件的患病率较高有关。在不同人口统计学特征的亚组分析中,AUROC 在不同组间变化较小且表现良好(AUROC > 0.8),而 AUPRC 变化较大,在黑人、20 - 60 岁人群和男性中较高。
- 训练数据大小对模型性能的影响:当训练数据为完整训练集的 3/8 时,模型性能仅有适度下降;当训练数据减少到 1/8 时,判别指标仍然稳健(AUROC > 0.88)。在训练数据较少的情况下,Event-GRU-ODE 的 AUPRC 比 Event-GRU-Discretized 更高。
- 预测因子(特征)重要性:通过预测因子消融方法确定的前十大预测因子主要与精神病史、年龄、行为因素和既往治疗相关。但由于模型中预测因子众多(>6000),且特征重要性因性能指标而异,使得特征解释具有一定挑战性。
研究结论与讨论:开启自杀预防新篇章
这项研究成功开发并验证了连续时间、动态预测 SRB 风险的模型,为自杀风险评估带来了新的思路和方法。与传统静态评估方法相比,这两种模型能够更好地适应 SRB 风险的时变特性,有效减少风险评分可用性的差距。在不同临床环境和人口统计学特征的人群中,模型均展现出良好的性能,为自杀预防策略的制定提供了更可靠的依据。
然而,研究也存在一些局限性。例如,模型仅依赖结构化 EHR 数据和临床笔记中的自然语言处理(NLP)衍生概念,事件发生时间的准确性有待提高;使用 ICD 代码作为 SRB 的替代指标存在一定缺陷;模型解释在时间序列建模中仍是一个发展中的领域,当前模型的交错设计给解释带来了挑战;此外,模型的泛化性尚未深入探索。
尽管如此,该研究成果仍然意义重大。它证实了连续时间和动态预测 SRB 风险的可行性,为后续研究指明了方向。未来,研究人员可以通过更先进的 NLP 方法、整合更多实时数据来源等方式,进一步优化模型。同时,随着研究的不断深入,有望更好地理解自杀风险的复杂机制,开发出更精准、更有效的自杀预防策略,从而拯救更多生命。