确保在心理健康护理应用中的普遍适用性和临床实用性:基于人工智能的强大治疗预测模型在多种精神疾病患者群体中的有效性

《Psychiatry and Clinical Neurosciences》:Ensuring generalizability and clinical utility in mental health care applications: Robust artificial intelligence-based treatment predictions in diverse psychosis populations

【字体: 时间:2025年11月09日 来源:Psychiatry and Clinical Neurosciences 6.2

编辑推荐:

  抗精神病药物响应预测模型通过机器学习方法在精神分裂症和首次发作精神病两个独立样本中开发,并验证其跨人群和跨疾病阶段的泛化能力。模型预测总症状严重程度和RSWG缓解的准确率分别为0.4-0.68和62.4%-69%,经交叉验证和外部验证后仍保持显著性能。临床实用性分析显示,模型在0.5-0.9风险阈值间具有净收益,但存在性别、种族和药物亚组差异,提示需更多多样化数据支持临床转化。

  本研究探讨了人工智能(AI)在精神疾病治疗反应预测中的应用,特别是在精神分裂症和首次发作精神病(FEP)患者群体中的表现。精神疾病治疗反应的异质性是一个长期存在的问题,不同患者即使具有相同的诊断,也可能在疾病严重程度、药物反应及复发风险上存在显著差异。这种异质性导致了临床决策的困难,使得治疗往往依赖于试错法,从而浪费了大量时间和资源,影响了患者的临床和功能结局,甚至导致疾病长期慢性化。因此,开发能够预测治疗反应的AI模型对于实现个性化治疗具有重要意义。

AI驱动的预测模型在医学领域,如肿瘤学、放射学和心脏病学中已显示出巨大的潜力,它们能够根据个体特征预估治疗效果,从而辅助临床决策。然而,在精神疾病领域,尽管已有许多预测模型展现出一定的前景,但这些模型尚未广泛应用于临床实践。研究指出,当前大多数精神疾病预测模型在外部数据上缺乏验证,且存在高风险的偏差,这限制了其在不同人群中的适用性。此外,不同研究中对于“缓解”、“反应”以及“症状严重程度变化”的定义存在差异,进一步影响了模型的可推广性。

本研究的目标是利用先进的机器学习方法,开发用于预测精神分裂症患者和首次发作精神病患者在接受一线抗精神病药物治疗后,3个月时症状严重程度变化的模型,并评估其在不同人群中的泛化能力。研究团队选择了两个具有代表性的数据集:一个是来自临床抗精神病药物干预疗效试验(CATIE)的已确诊精神分裂症患者群体(594人),另一个是来自欧洲首次发作精神分裂症试验(EUFEST)的首次发作精神病患者群体(323人)。这两个数据集在疾病阶段和地理区域上存在显著差异,为模型的泛化能力提供了严格的测试环境。

在模型开发过程中,研究团队考虑了多种因素,包括临床特征、社会人口学信息和认知能力。例如,研究使用了Positive and Negative Syndrome Scale(PANSS)评估症状严重程度,并结合了其他心理病理学指标,如临床全球印象量表(CGI)、精神共病情况以及药物剂量等。此外,研究还采用了Rey Auditory Verbal Learning Test(RAVLT)和Wechsler成人智力量表(WAIS)中的数字符号任务作为认知评估工具。这些特征被用于构建模型,以预测患者在接受抗精神病药物治疗后3个月的症状变化。

模型性能评估主要通过决策曲线分析(decision curve analysis)和校准曲线分析(calibration curve analysis)进行。决策曲线分析用于评估模型在不同概率阈值下的净收益,而校准曲线分析则用于衡量模型预测的正类概率与实际观察结果之间的匹配程度。研究发现,对于缓解预测模型,其在不同样本中的净收益在0.5到0.9之间,且校准表现中等良好(ECE为0.16至0.18),表明模型在临床应用中具有一定价值。然而,模型的性能在性别、种族和药物使用群体中存在差异,这提示需要在更广泛的人群中进行测试,以确保预测的公平性。

进一步的分析表明,尽管模型在不同群体中表现不一,但总体上仍具有一定的临床实用性。例如,在已确诊精神分裂症样本中,预测总症状严重程度的模型表现出良好的泛化能力,其相关系数(r)在0.4至0.68之间。而首次发作精神病样本中的模型在外部验证中也显示出一定的性能,相关系数为0.4至0.5,缓解率在63.5%至65.7%之间。这表明,这些模型在一定程度上能够辅助临床决策,特别是在预测抗精神病药物治疗效果方面。然而,研究还指出,模型在某些群体中的表现可能不如其他群体,例如,对于某些药物或特定种族的患者,模型的准确性较低,这可能与数据集的代表性不足有关。

研究团队还对模型的简化版本进行了测试,发现即使将模型特征减少到8至9个关键变量,其性能仍然显著。这表明,模型在实际应用中具有一定的可操作性,可能不需要收集大量复杂的临床数据。然而,尽管简化模型在某些方面表现良好,其泛化能力仍然受到患者群体特征的影响,例如性别、种族、药物使用和症状变化等因素。

此外,研究还发现,模型在预测不同症状变化指标时表现不一。例如,总症状严重程度和缓解的预测效果较好,而症状百分比变化的预测能力较弱。这提示在构建预测模型时,选择合适的结局定义对于模型的有效性至关重要。当前文献中使用的结局定义多种多样,缺乏统一标准,这可能会影响模型的可推广性和临床实用性。因此,研究建议未来需要建立一个国际共识,以确定哪些结局指标既具有临床相关性,又具备可推广性,从而推动AI在精神疾病领域的应用。

尽管研究结果显示出AI在精神疾病治疗反应预测方面的潜力,但模型在临床转化方面仍面临挑战。例如,首次发作精神病模型的净收益范围较窄,表明其在临床决策中的应用可能受到限制。此外,模型在不同群体中的校准表现存在系统性差异,如在已确诊精神分裂症样本中低估了非缓解风险,而在首次发作精神病样本中高估了非缓解风险。这种差异可能反映了不同患者群体在治疗反应上的不同趋势,例如首次发作精神病患者通常对药物反应较好,而长期患病者则更可能对治疗产生抵抗。因此,模型在临床部署前可能需要进行本地校准或群体特定的风险调整。

研究还指出,模型的性能受多种因素影响,包括性别、种族和药物使用情况。例如,模型在男性中的表现优于女性,而在白人患者中的表现优于非白人患者。这些差异可能与样本中性别和种族的代表性不足有关,也可能反映了精神疾病诊断和治疗中的系统性偏差。此外,某些药物(如利培酮和氯丙嗪)在模型中的表现较好,而其他药物(如齐普西坦和奥氮平)的预测能力则较低。这提示需要进一步研究药物对模型性能的具体影响,以及如何在临床实践中优化药物选择。

总体而言,本研究为精神疾病领域AI模型的开发和评估提供了一个严谨的框架,展示了这些模型在不同患者群体中的泛化能力。然而,研究也强调了当前模型在公平性和泛化性方面的不足,建议未来需要收集更多样化的数据,以确保模型适用于所有患者群体。此外,研究还呼吁建立一个统一的结局定义标准,以提高预测模型的临床价值。这些发现对于推动精准精神病学的发展具有重要意义,同时也为未来的临床实践提供了新的思路和方向。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号