机器学习预测青少年进食障碍复杂临床病程:一项迈向精准精神病学的前瞻性研究
【字体:
大
中
小
】
时间:2025年10月14日
来源:International Journal of Eating Disorders 4.3
编辑推荐:
本研究系统比较了多种监督机器学习(ML)算法与逻辑回归(LR)在预测青少年进食障碍(ED)复杂临床病程中的表现。结果表明,结合入院及出院数据的随机森林(RF)模型预测性能最佳(AUC=0.723),显著优于传统方法,凸显了ML在处理高维临床数据、捕捉非线性关系方面的优势,为ED领域的精准医疗(Precision Medicine)提供了新思路。
进食障碍(EDs)是伴有高医疗发病率、高死亡率及慢性化特征的严重精神疾病,通常在青春期发病。尽管应用了金标准治疗,青少年ED的康复率估计在51%至75%之间,总体复发率超过三分之一。因此,以反复治疗和再入院为特征的复杂临床病程是ED护理中的主要关切点。然而,ED的临床病程仍知之甚少,现有预测研究结果不一致,且尚未开发出预测性临床决策工具。这反映了ED文献中持续存在的方法学挑战,如样本量小、纵向随访有限、人口多样性差以及对复发等关键定义的操作化不一致。
监督机器学习(ML)算法为改善ED临床病程结局预测提供了一种有前景的方法。与需要预设线性假设和交互项的逻辑回归(LR)相比,基于树的模型(如随机森林)能隐式建模复杂非线性关系和高维数据集中的交互作用,理论上更适用于模拟精神病学中受多种生物心理社会因素累积和交互影响下的疾病结局。此外,对于构成大多数临床健康信息的结构化表格数据分类问题,监督ML方法已被证明优于深度学习等方法。
本研究基于加拿大东部安大略省儿童医院(CHEO)进食障碍项目(EDP)2018年至2024年间的临床数据,共纳入327名接受过任何级别护理的青少年患者。复杂临床病程结局定义为:出院后再入院,或治疗轨迹偏离预期的护理强度降级(包括返回同一级别或升级至更高级别护理)。使用患者首次治疗 episode 的34个入院和出院变量作为预测因子。
数据预处理包括检查异常值、使用随机森林进行单一插补处理缺失值(最大缺失率为4%)。采用重复嵌套交叉验证(5次重复,5折外层循环,10折内层循环)来训练和评估七种ML模型(随机森林-RF、随机梯度提升-GBM、极端梯度提升-XGBoost、线性与径向基核支持向量机-SVM、朴素贝叶斯-NB、弹性网络正则化回归-EN)以及逻辑回归(LR)的性能。模型性能主要通过受试者工作特征曲线下面积(AUC)和Brier评分进行评估。此外,还比较了仅使用入院变量与结合入院和出院变量的模型,并评估了使用前10个最重要预测因子的简约模型。
患者样本平均年龄14.9岁,主要为女性(88%),最常见诊断是神经性厌食限制型(67%)。复杂临床病程发生率为28.4%。
当仅使用入院变量训练模型时,所有模型的判别能力均较差(AUCs < 0.6)。加入出院变量后,所有模型的性能均得到改善。随机森林(RF)模型在结合入院和出院数据时表现最佳(AUC = 0.723;Brier评分 = 0.176),其判别性能显著优于逻辑回归(LR)。朴素贝叶斯(NB)、随机梯度提升(GBM)和弹性网络(EN)模型也表现出显著优于LR的判别性能。
变量重要性分析显示,随机森林模型中最重要的预测因子是治疗期间的体重变化和BMI(Body Mass Index)变化,其次是治疗持续时间、治疗开始时年龄、出院时达到的目标体重百分比等。出院相关指标普遍排名高于入院变量。
使用前10个最重要预测因子的简约随机森林模型性能显著下降(AUC = 0.631),表明完整模型在处理高维数据方面的优势。而逻辑回归模型在完整预测因子集和简约集上的性能无显著差异。
本研究首次将监督ML应用于预测青少年ED群体的纵向疾病病程。结果表明,随机森林等ML方法在预测复杂临床病程方面优于传统逻辑回归,特别是在处理高维数据时。其优势在于能够处理多重共线性、进行隐式特征选择以及捕捉预测变量间的复杂交互作用,而无需预先指定。
研究结果强调,治疗反应(以出院时指标衡量)是预测长期结局的关键,而仅靠基线临床特征预测能力有限。这与其他研究一致,表明早期治疗反应是长期康复的重要预测指标。
本研究的优势包括使用独特的纵向数据集、自然主义地捕捉了6年内青少年ED在四级护理结构中的治疗轨迹、采用 transdiagnostic 方法以及严谨的嵌套交叉验证流程以防止数据泄漏和性能评估偏倚。
局限性包括:复杂临床病程的定义尚未在儿科ED文献中统一;样本量(n=327)相对于ML标准仍属中等,且样本中女性、神经性厌食症患者占主导,限制了亚组分析的可能性;预测变量仅限于首次治疗 episode 的临床数据,未包含社会经济地位、种族以及更广泛的生物心理社会标志物。
本研究开发的ML模型有望为开发临床决策支持工具奠定基础,用于在青少年首次治疗结束后识别其复杂疾病病程的高风险,从而指导出院后强化监测或个性化降级护理方案。未来研究应致力于扩大样本量,通过多中心合作建立更大规模的数据集,并进行外部验证。更重要的是,将预测模型扩展到包含更全面的精准医学数据(如生物、心理、社会因素)有望进一步提高预测准确性,并可能通过可解释ML方法(如SHAP值)揭示驱动不良临床病程的关键病因学因素,从而识别新的治疗靶点,克服该领域的治疗停滞。
本研究证实,监督机器学习方法能够利用青少年进食障碍患者首次治疗 episode 的临床数据,提升对其复杂临床病程的预测能力。这些发现支持未来在ED研究中应用ML方法,尤其是在利用更大样本量和更高维度的精准健康数据时,以期最终开发出经过验证的预后工具,为个性化治疗规划提供支持,并增进对ED临床病程病因学的理解。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号