
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于机器学习的在校青少年自杀意念、计划及行为预测研究
【字体: 大 中 小 】 时间:2025年07月25日 来源:Informatics and Health
编辑推荐:
推荐:本研究针对青少年自杀行为早期识别难题,采用机器学习算法分析全球校园健康调查(GSHS)数据,通过SMOTE平衡技术和11种分类器(包括RF、XGBoost等)构建预测模型。随机森林(RF)在平衡数据集上表现最优,预测自杀计划/意念/尝试的AUC分别达82.91%/80.74%/84.25%,揭示性别、孤独感和亲子依恋为关键预测因子,为校园心理危机干预提供数据支持。
在全球范围内,自杀已成为15-29岁人群的第三大死因,而青少年阶段尤为脆弱——约6%的青少年死于自杀,且男性自杀率显著高于女性。更令人担忧的是,近年来青少年自杀率持续攀升,如美国2001-2019年间从4.57/10万增至6.5/10万。传统识别方法难以精准捕捉风险信号,而机器学习(ML)为这一困境带来了新曙光。
研究人员利用2019-2023年全球校园健康调查(GSHS)数据,涵盖菲律宾、文莱等5个国家16,704名青少年的心理健康记录,首次系统评估了11种机器学习算法对自杀行为三级预测(意念/计划/尝试)的效能。通过SMOTE(合成少数类过采样技术)处理数据不平衡问题,采用SHAP值解析特征重要性,最终构建出具有临床转化潜力的预测模型。
关键技术包括:1) 跨国多中心队列数据整合;2) SMOTE数据平衡处理;3) 11种分类器(GNB/SVC/DT/LR/RF/KNN/XGBoost/Bagging/AdaBoost/LightGBM/CatBoost)并行比较;4) 五维度评估指标(准确率/召回率/精确率/F1值/AUC);5) SHAP可解释性分析。
研究结果揭示:
自杀计划预测:随机森林(RF)在平衡数据上表现最优,准确率74.93%,AUC 82.91%。SHAP分析显示性别(贡献度13.88%)、亲子依恋(11.21%)和孤独感(11.08%)为三大关键因子。
自杀意念预测:RF模型准确率73.47%,AUC 80.74%。特征重要性排序显示性别(12.26%)、孤独感(11.91%)和焦虑(7.81%)最具预测力,而同伴支持(4.81%)等保护性因素作用显著。
自杀尝试预测:RF再创最佳表现,准确率76.38%且召回率高达77.92%,AUC达84.25%。物理攻击经历(8.39%)和酒精使用(6.92%)等行为特征贡献突出。
值得注意的是,所有模型在非平衡数据中召回率骤降(如SVC预测自杀计划召回率仅4.5%),凸显数据平衡对 minority class(少数类)识别的重要性。通过Delong检验逐步剔除肥胖、饥饿等低贡献特征后,模型保持稳定性能,证实其临床实用性。
这项发表于《Informatics and Health》的研究具有三重里程碑意义:首先,首次系统验证了RF算法在青少年自杀三级预测中的优越性,其AUC稳定在80-84%区间;其次,通过SHAP可解释性分析,明确孤独感、亲子关系等可干预因素的关键作用,为精准预防指明靶点;最后,跨国队列的应用增强了模型普适性,弥补了既往研究的地域局限性。
当然,自报告数据的潜在偏差、样本的文化异质性等问题仍需通过纵向研究完善。未来可结合穿戴设备实时监测、开发校用AI筛查工具,并将模型整合到"家校医"联防体系中。这项研究不仅为机器学习在精神卫生领域的应用提供了范式,更开辟了数据驱动型自杀预防的新纪元。
生物通微信公众号
知名企业招聘