编辑推荐:
本综述聚焦机器学习(ML)在预测情感障碍治疗反应中的应用。通过系统分析 155 项研究,发现 ML 整体预测准确率为 0.76,AUC 为 0.80,但准确性受预测因子类型、验证方法等影响,未来需提升方法学严谨性及探索多模态数据整合。
1. 引言
情感障碍(如抑郁症、焦虑症)是全球常见且致残性疾病,传统治疗方法对部分患者效果不佳,亟需个性化治疗策略。机器学习(ML)因其能捕捉非线性复杂模式,在预测治疗反应方面展现潜力。尽管已有研究探索 ML 在情感障碍治疗反应预测中的应用,但研究间方法差异大,缺乏标准化,需综合评估 ML 模型的预测效能及影响因素。
2. 方法
2.1 文献检索
依据 PRISMA 指南,于 PubMed 和 PsycINFO 数据库检索 2010 年 1 月 1 日至 2025 年 3 月 27 日期间,使用 ML 方法预测情感障碍患者治疗反应的研究,检索词涵盖多种情感障碍类型、治疗方式及 ML 相关术语。该分析已在 PROSPERO 注册(注册号 CRD42023469216)。
2.2 纳入与排除标准
纳入标准包括:研究对象为情感障碍患者;使用 ML 方法预测二元治疗反应(有反应者 vs 无反应者)或缓解;报告二元预测准确性指标(如准确率、AUC);采用适当数据划分方法;英文 peer-review 期刊论文。排除非人类研究、非 ML 预测方法及未报告所需指标的研究。
2.3 数据提取与分析
由两名研究者独立提取数据,内容包括样本量、治疗类型、预测因子、ML 方法及预测准确性等。采用 R 软件的 metafor 和 mada 包进行 Meta 分析,运用多层随机效应模型处理研究间异质性,通过 Meta 回归分析探讨预测准确性的调节因素,同时进行发表偏倚检验和敏感性分析。
3. 结果
3.1 研究特征
初检获得 3816 条非重复记录,最终 155 项研究纳入分析。研究样本量范围为 16 至 77,371 人,平均 1865 人。治疗类型以药物治疗(n=90)为主,其次为心理治疗(n=27)、生物刺激(n=24)等。多数研究未进行失衡校正(n=125),常用交叉验证方法为 k 折交叉验证(n=83)、简单分割(n=55)和嵌套交叉验证(n=16)。
3.2 预测准确性
整体平均预测准确率为 0.76(95% CI:0.74–0.78),AUC 平均为 0.80,表明有较好的区分度,敏感性和特异性分别为 0.73 和 0.75。研究间存在显著异质性(Q (df=208)=3919.62, p<0.0001)。
3.3 预测准确性的调节因素
调节分析显示,较高的有反应者比例(β=1.02, p<0.001)、使用更稳健的交叉验证程序(如 k 折和嵌套交叉验证,β=1.37, p<0.01)与更高的预测准确性相关。以神经影像数据为预测因子的研究准确性高于临床和人口学数据。而进行失衡预处理(β=0.59, p<0.05)和处理缺失数据(β=0.58, p<0.001)的研究准确性估计更保守。此外,抑郁症患者样本的预测准确性较低(β=0.70, p<0.001),治疗时长与预测准确性呈正相关(β=1.01, p<0.01)。
3.4 Meta 分析诊断与稳健性估计
失安全数为 12,596,大于推荐值,提示结果对发表偏倚有一定稳健性,但漏斗图不对称检验显示可能存在发表偏倚,小样本研究可能高估准确性。留一法敏感性分析显示结果稳健,稳健方差估计下准确率仍为 0.76(95% CI:0.74–0.78)。
4. 讨论
4.1 ML 在情感障碍治疗反应预测中的潜力与挑战
ML 方法在情感障碍治疗反应预测中具有中等准确性,有望通过识别个体对特定治疗的反应,助力个性化医疗,如提供预后信息、辅助医患决策等。然而,预测准确性可能受有反应者比例和类别失衡影响,未校正失衡的研究易高估准确性,提示需重视数据预处理的严谨性。
4.2 预测因子与方法学的影响
神经影像和生物数据作为预测因子准确性较高,可能与捕捉脑机制相关,但存在成本高、泛化性差等问题。验证方法的选择对结果影响显著,稳健的交叉验证方法有助于提高准确性。简单算法(如弹性网)与复杂算法(如神经网络)准确性相当,神经网络在大样本中优势更明显。
4.3 未来研究方向
未来需标准化数据预处理和结果评估,加强对类别失衡的校正,推广嵌套交叉验证等稳健方法。探索多模态数据(临床、遗传、神经影像等)整合及特征工程,结合时间序列分析动态捕捉症状变化,同时开展大规模跨人群研究以验证模型泛化性。
5. 结论
机器学习在情感障碍治疗反应预测中具有应用潜力,当前准确性受预测因子和方法学影响。未来需提升方法学严谨性,推动多模态数据整合与标准化,以更好地服务于临床个性化治疗。