基于可解释机器学习的中国抑郁青少年广泛性焦虑障碍预测模型及风险因素交互作用分析
《BMC Medical Informatics and Decision Making》:Predicting generalized anxiety disorder among Chinese depressed adolescents: an explainable machine learning approach
【字体:
大
中
小
】
时间:2025年11月04日
来源:BMC Medical Informatics and Decision Making 3.8
编辑推荐:
本研究针对抑郁青少年共病焦虑的高风险问题,采用LightGBM机器学习模型结合SHAP解释框架,通过对2316名中国抑郁青少年的34个预测因子进行分析,发现抑郁严重程度、反刍思维、感知压力等9个关键风险因素和心理弹性保护因素。研究创新性地通过CHAID决策树识别高风险亚组,为临床早期干预提供精准化指导。该成果发表于《BMC Medical Informatics and Decision Making》,为精神健康领域提供可解释AI研究范式。
青少年心理健康问题日益受到全球关注,处于身心巨变期的青少年容易产生孤独感、受害感及抑郁焦虑等负面情绪。据统计,全球10-19岁青少年中14%存在心理健康问题,其中抑郁和焦虑发生率分别达8.2%和3.9%。尤为值得关注的是,抑郁症状常与焦虑共病,研究表明15%-75%的抑郁青少年同时患有焦虑障碍。与单纯焦虑相比,抑郁共病焦虑的青少年往往人际关系更差、社会功能受损更严重,若不及时干预,还可能增加情感障碍、物质使用障碍风险,甚至导致酗酒、斗殴、辍学乃至自杀等严重后果。
目前关于抑郁与焦虑共病风险因素的研究多采用回归分析方法,已知相关因素包括人口社会学因素(性别、肥胖、尼古丁摄入)、心理因素(反刍思维、述情障碍、消极应对方式)以及社会家庭环境因素(童年创伤、不良教养行为)。然而,这些因素间潜在的交互作用及其与共病的非线性关系亟待深入探索,这需要采用兼具预测和解释能力的先进机器学习技术。
为解决上述问题,耿爽团队在《BMC Medical Informatics and Decision Making》发表了题为"Predicting generalized anxiety disorder among Chinese depressed adolescents: an explainable machine learning approach"的研究。该研究基于中国青少年抑郁队列(CADC),纳入2316名12-18岁抑郁青少年,收集34个预测因子,采用LightGBM预测模型和SHAP解释算法,深入解析不同因素对焦虑共病的预测重要性,并通过CHAID决策树和有序逻辑回归验证因素交互作用。
研究主要采用五项关键技术方法:首先通过中国青少年抑郁队列(CADC)收集2316名抑郁青少年的临床数据;其次构建LightGBM机器学习预测模型并采用5折交叉验证;接着运用SHAP框架进行特征重要性分析和交互作用解读;然后采用CHAID决策树识别高风险亚组组合;最后通过有序逻辑回归进行稳健性检验验证结果可靠性。
参与者基线特征
研究样本中女性占比超过77%,平均年龄20.44岁。85.3%(1975/2316)的抑郁青少年存在焦虑症状,其中轻度焦虑19.8%(458/2316),中度焦虑26.2%(606/2316),重度焦虑39.3%(911/2316)。严重焦虑组青少年平均抑郁得分(2.47±0.45)显著高于中度焦虑组(1.96±0.49)和轻度焦虑组(1.46±0.53),反刍思维得分也呈现类似趋势。
预测模型与SHAP解释
LightGBM模型在测试集上AUC达到0.847,显著优于随机预测。SHAP特征重要性排名显示,抑郁严重程度(平均SHAP值=2.861)、反刍思维、感知压力、睡眠质量、述情障碍、同伴侵害、学业压力水平、情绪聚焦应对和父母过度保护是核心影响因素。心理弹性被识别为保护性因素。
SHAP依赖关系图揭示了预测因子与焦虑水平间的非线性关系。当抑郁得分在0.5-1.5之间时,其对轻度焦虑的预测能力远高于中重度焦虑;当抑郁水平达到1.5-2.5时,对中重度焦虑的预测能力增强。反刍思维、感知压力等因素也呈现类似模式,表明较高水平的这些因素对重度焦虑的预测贡献更大。
因素交互作用
SHAP交互分析揭示了抑郁严重程度与六个风险因素(述情障碍、反刍思维、表达抑制、情绪聚焦应对、认知重评和感知压力)在不同焦虑风险中的关键交互作用。低述情障碍(<3.5)的青少年,随着抑郁水平升高,被预测为重度焦虑的概率增加;而高述情障碍(>3.5)且抑郁水平相对较低的青少年,述情障碍对重度焦虑的预测作用更大。低反刍思维(<2.5)的青少年,抑郁水平升高不一定导致重度焦虑预测,但高反刍思维(>2.5)伴随抑郁水平升高则显著增加重度焦虑风险。
心理弹性与四个预测因素(抑郁严重程度、感知压力、问题聚焦应对和认知重评)的交互作用显示,低心理弹性青少年更容易被预测为抑郁和重度焦虑。高心理弹性值有助于降低预测风险,类似模式也出现在心理弹性与感知压力的交互中。高心理弹性青少年往往感知压力较小,焦虑预测风险降低。
因素组合效应
CHAID决策树分析揭示了不同焦虑水平的风险亚组组合。重度焦虑的高风险亚组包括:抑郁症状严重(得分>2.556)的青少年;抑郁中度(得分1.667-2.000)且高反刍思维(得分>2.500)的青少年;抑郁严重(得分2.000-2.566)且高述情障碍(得分>3.350)的青少年。中度焦虑的高风险亚组为抑郁水平高(得分>1.556)、感知压力大(得分>2.750)且同伴侵害多(得分>0.062)的青少年。
有序逻辑回归验证
有序逻辑回归结果显示,抑郁水平(OR 8.93,95%CI 7.26-10.98)、反刍思维倾向(OR 2.44,95%CI 1.98-3.01)、感知压力(OR 1.73,95%CI 1.46-2.04)等因素对焦虑有显著影响。SHAP值排名与回归系数排名基本一致,但SHAP还捕捉到了回归分析未包含的述情障碍、心理弹性等因素,展示了其提供额外风险因素信息的能力。
研究结论强调,利用可解释机器学习方法能够识别抑郁青少年焦虑障碍的风险因素。SHAP分析表明抑郁严重程度是共病焦虑的最重要预测因子,CHAID决策树进一步识别出风险亚组。这些发现提示临床工作者应考虑上述风险和保护因素及其交互作用,制定适宜的共病焦虑预防疗法。
该研究的创新价值在于将可解释机器学习技术应用于精神健康领域,不仅实现了高精度预测(AUC 0.847),还通过SHAP和CHAID方法深入解析了因素间的复杂交互关系。从临床实践角度,研究识别出的9个关键风险因素和1个保护因素为早期筛查提供具体靶点,而高风险亚组的确定为个性化干预提供精准指导。从方法学角度,研究展示了如何将机器学习预测能力与临床可解释性要求相结合,为精神健康领域的AI应用提供重要范式。
研究的局限性包括仅比较了LightGBM模型、采用自评量表可能存在的理解偏差、横断面设计限制因果推断、样本量和变量数有限等。未来研究可纳入更多机器学习模型、扩大样本规模、增加神经生物学指标,从多维度深入探索风险因素的复杂交互机制。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号