《Neuropsychiatric Disease and Treatment》:Development and Validation of a Prediction Model for Postoperative Delirium
编辑推荐:
背景:术后谵妄(Postoperative delirium,POD)是常见且严重的术后并发症。早期识别高危患者有助于实施针对性干预。目的:研究人员旨在基于多中心回顾性队列开发并验证一种基于机器学习的POD预测模型。方法:研究人员分析了3000例手术患者的数据
背景:术后谵妄(Postoperative delirium,POD)是常见且严重的术后并发症。早期识别高危患者有助于实施针对性干预。目的:研究人员旨在基于多中心回顾性队列开发并验证一种基于机器学习的POD预测模型。方法:研究人员分析了3000例手术患者的数据,划分为训练队列(n=1400)、内部测试队列(n=600)和外部验证队列(n=1000)。系统性比较了8种机器学习算法,包括随机森林(Random Forest,RF)、XGBoost(XGB)、LightGBM(LGBM)、支持向量机(Support Vector Machine,SVM)、K近邻(K-Nearest Neighbors,KNN)、Logistic回归(Logistic Regression,LR)、决策树(Decision Tree,DT)和朴素贝叶斯(Naive Bayes,NB)。根据曲线下面积(Area Under the Curve,AUC)选择最优模型,并通过SHapley Additive exPlanations(SHAP)分析辅助解释;模型校准采用布里尔分数(Brier score)评估,区分度通过内部及独立外部验证进行评价。结果:随机森林模型表现出更优性能(训练AUC:0.913;内部测试AUC:0.846;外部验证AUC:0.823;Brier score:0.079),持续识别出6个关键预测因子:中国版简明精神状态检查(Chinese Mini Mental Status,CMMS)评分、预后营养指数(Prognostic Nutritional Index,PNI)、美国麻醉医师协会(American Society of Anesthesiologists,ASA)分级、年龄、痴呆史和ICU入住。结论:这一经过充分验证的机器学习框架在多机构验证和系统性算法比较支持下,为POD风险分层提供了可解释工具;营养状态作为首要预测因子的识别凸显了围术期干预中此前未被充分利用的靶点。
研究背景:术后谵妄(Postoperative delirium,POD)是一种以急性认知波动为特征的常见且严重的神经精神并发症,与住院时间延长、长期认知下降和死亡率增加密切相关。现有POD预测模型多受限于单中心数据、缺乏严谨的外部验证以及预测机制透明度不足,通用性和可解释性较差。传统风险评分常依赖线性回归方法,难以捕捉生理储备与手术应激之间复杂的非线性交互关系。机器学习(machine learning,ML)虽可建模高维临床数据与非线性关联,但其临床转化常被两大问题阻碍:一是多数研究缺乏独立外部验证,泛化性存疑;二是复杂算法多被视为“黑箱(black box)”,缺乏可解释性,影响临床信任与应用。为此,研究人员开展了一项多中心回顾性研究,旨在开发并验证一个可解释的机器学习框架用于POD预测,基于多中心大样本确保广泛适用性,比较八种不同算法以确定最优模型,并集成SHapley Additive exPlanations(SHAP)方法解决黑箱问题,可视化关键预测因子(如CMMS评分、预后营养指数(Prognostic Nutritional Index,PNI))的具体贡献,为早期风险分层和个体化围术期管理提供透明工具。该研究论文发表于《Neuropsychiatric Disease and Treatment》(《神经精神疾病与治疗期刊》)。
关键技术方法:研究人员采用多中心回顾性队列设计,样本来源于山西省两所医疗机构电子病历系统:541总医院2020年1月至2024年12月间连续入组的2000例手术患者按7∶3随机分为训练队列(n=1400)与内部测试队列(n=600),独立外部验证队列(n=1000)来自同期夏县人民医院且符合相同入排标准。纳入年龄≥18岁、接受择期或急诊全麻/椎管内麻醉手术、术后入普通病房或ICU且预期住院>24 h、具有完整术前认知评估及POD筛查记录者;排除严重语言/视听障碍或严重精神障碍无法配合术前认知评估、术前昏迷或持续植物状态、核心临床数据不全、计划术后24 h内出院及同一患者重复手术仅保留首次数据。结局为术后3 d内POD发生,通过电子病历两步法确定:先以“意识模糊、躁、定向力差”等术语及新开抗精神病/镇静药(氟哌啶醇、喹硫平等)初筛,再由神经内科专科医生盲法按?《精神障碍诊断与统计手册》第五版(Diagnostic and Statistical Manual of Mental Disorders, Fifth Edition,DSM-5)最终确诊。候选预测变量涵盖人口学、合并症、围术期因素、用药、实验室指标(含PNI、中性粒细胞与淋巴细胞比值(Neutrophil-to-Lymphocyte Ratio,NLR)等衍生指数)、术前认知(CMMS评分)等;缺失值(<5%)采用单插补(均值/中位数)。特征筛选先用10折交叉验证LASSO(最小绝对收缩和选择算子)回归确定最优λ保留非零系数变量,再以Boruta算法(基于随机森林的影子特征比较)确认重要属性,取两者交集得到最终6个预测因子。模型构建针对训练队列建立八种机器学习算法(RF、XGB、LGBM、SVM、KNN、LR、DT、NB),以网格搜索结合5折交叉验证调优超参数,主要依据曲线下面积(Area Under the Curve,AUC)选最优模型;判别度用ROC曲线和AUC评价,校准用校准图及Hosmer-Lemeshow检验和Brier score评价,临床效用用决策曲线分析(Decision Curve Analysis,DCA)评价;并在内部测试集与外部验证集重复评估,两队列均追加5折交叉验证考察稳定性。可解释性通过SHAP框架实现全局特征重要(均值绝对SHAP值)、SHAP汇总点阵图(beeswarm plot)及个体水平瀑布图(waterfall plot)/力图展示各特征对预测的正负贡献。统计描述连续变量正态性用Shapiro–Wilk检验,组间比较用Student t检验(正态)或Mann–Whitney U检验(非正态),分类变量用卡方或Fisher精确检验,显著性设为双侧P<0.05,分析工具为R 4.4.2和JD_DCPM V6.11。
结果:研究人员通过以下步骤得出相应结论。
基本特征(Basic Characteristics of the Patients):三个队列(训练n=1400、内部测试n=600、外部验证n=1000)的POD发生率分别为17.0%、16.3%、17.5%,组间无显著差异(P=0.784);年龄(P=0.215)、性别(P=0.184)、BMI(P=0.089)、合并症(高血压P=0.078、糖尿病P=0.094)、CMMS评分(P=0.135)、PNI(P=0.092)、血清白蛋白(P=0.085)、白细胞计数(P=0.058)、NLR(P=0.055)、血糖(P=0.065)、手术类型、麻醉方式、手术时长等基线特征均均衡可比(P均>0.05),说明随机拆分和队列选择有效,代表同一潜在人群。
特征选择(Feature Selection):初始经文献和临床经验遴选候选变量后,在训练队列用10折交叉验证LASSO回归以最小二项偏差确定最优λ,保留11个非零系数变量;同时Boruta算法确认13个显著重要特征(优于影子特征)。取LASSO与Boruta交集得到最终6个独立预测因子:年龄(Age)、痴呆史(Dementia)、ASA分级(ASA Classification)、CMMS评分(CMMS score)、ICU入住(ICU Admission)、预后营养指数(PNI)。相关分析显示这些因子互为补充、冗余度低(Spearman相关热图)。这6项主要反映认知储备(Age、Dementia、CMMS评分)与生理脆弱性(ASA分级、ICU入住、PNI)两大维度,交互作用比单一因素更具预测力。
模型开发与性能(Model Development and Performance):基于6个预测因子在训练队列构建八种算法,以网格搜索结合5折交叉验证调参后,随机森林(RF)判别度最高,AUC达0.913(95%CI:0.890–0.936),显著优于其他七种(如NB的AUC=0.802、XGB的AUC=0.792、LR的AUC=0.787,两两AUC比较P<0.05)。RF在敏感度、特异度、精确度、F1值等多指标上平衡且最优;DCA显示RF在宽阈值概率范围内临床净获益(net benefit)最高。因此选定RF为最终分类器。
模型在测试与外部验证集的性能(Model Performance on Both the Testing and External Validation Sets):在内部测试队列,RF的AUC为0.846(95%CI:0.817–0.875),校准曲线贴近理想对角线,Hosmer-Lemeshow检验适配良好,DCA显示较“全干预”“不干预”策略净获益更高;5折交叉验证平均AUC为0.823(95%CI:0.792–0.854),各折AUC介于0.782~0.862,稳定性好。在独立外部验证队列,RF的AUC为0.823(95%CI:0.792–0.854),校准一致,DCA同样优于对照策略;5折交叉验证平均AUC为0.806(95%CI:0.773–0.838),各折AUC介于0.746~0.856。Brier score在三组分别为0.052(训练)、0.068(测试)、0.079(验证),均为最低,说明概率校准优良。AUC从训练到测试再到外部略有但可接受下降,表明模型未过拟合,泛化能力强。
模型解释(Model Interpretation):通过SHAP全局分析,按均值绝对SHAP值排序的特征重要性依次为:CMMS评分最高,其次为PNI、ASA分级、Age、Dementia、ICU入住;SHAP汇总点阵图显示CMMS评分和PNI低值与POD风险升高正相关(低值对应正SHAP值),ASA分级高(III–IV)、Age大、Dementia阳性、ICU入住阳性亦对应正SHAP值(风险增加)。个体瀑布图示例表明:高危病例(如CMMS=18、ASA III–IV、Age=78)中低CMMS、高ASA、高龄等推高预测风险(黄色正向贡献)超过保护因素;低危病例(如CMMS=20、ASA I–II、Age=51、无痴呆、非ICU)中青年、低ASA、无痴呆、非ICU等负向贡献(紫色)压低预测值。由此可从全局和个体层面解释RF的决策依据。
讨论总结:研究人员指出,本多中心回顾性研究成功开发并验证了基于RF的POD预测框架,RF在内外队列判别(AUC分别为0.846、0.823)、校准(Brier score 0.068、0.079)和临床净获益上均优,且SHAP提供了全局与个体可解释性。六预测因子中CMMS评分为最强贡献者,支持认知储备假说:低CMMS反映突触密度低、胆碱能缺陷与神经可塑性差,削弱脑网络抵御围术期应激(麻醉、手术创伤)能力,易导致网络整合急性失效而谵妄;PNI为次强因子,体现营养-炎症状态:PNI综合血清白蛋白(抗氧化、神经保护、配体载体)与淋巴细胞(免疫),低PNI提示营养不良、免疫衰老、慢性炎症,损害血脑屏障与神经修复,降低谵妄阈值;ASA分级与Age代表整体生理储备和生物衰老:高ASA为器官储备低、围术期血流动力学/代谢稳态难维持,可致短暂脑低灌注/缺氧诱发谵妄,Age相关“炎性衰老(inflammaging)”使小胶质细胞处于致敏态,手术释放IL-6、TNF-α等细胞因子穿透中枢引发夸大神经炎症与突触功能障碍;痴呆史代表既定神经病理(如β淀粉样沉积),血脑屏障与递质系统受损更脆;ICU入住带来环境/医源性应激(睡眠破碎、昼夜节律紊乱、感觉超载、镇静/抗胆碱药使用),脱离现实耦合加重认知紊乱。研究优势在于大样本多中心、严谨外部验证确保泛化,SHAP破解黑箱提升临床透明。局限性:回顾性设计不能推断因果;POD确诊依赖病历两步法(术语筛查+DSM-5盲法专科 adjudication)但未用前瞻性标准化工具(如CAM、CAM-ICU),低活动型谵妄可能漏诊而致分类偏倚;CMMS评分在急诊/生理不稳定时受限(疼痛、焦虑影响测评,此类患者被排除致选择偏倚),限制模型在最危重急诊人群的外推;未纳入术中神经生理监测或特定生物标志物,未来可增补;模型基于传统机器学习,未融合模糊逻辑(fuzzy logic)与深度学习等混合先进范式,可后续探索。研究人员建议按场景分层实施:择期有认知评估时用全6因子模型;紧急缺CMMS时代用5因子简化模型(临床认知代理);需前瞻验证简化版并考察基于模型引导的营养预康复、认知训练等干预能否降POD发生率与改善认知转归。结论部分译文:本研究开发并外部验证了一个可准确预测术后谵妄风险的随机森林模型。模型确定术前CMMS评分、PNI、ASA分级、年龄、痴呆史和ICU入住为主要风险决定因子,突出了认知储备、营养状态和生理脆弱性之间的关键交互作用是谵妄风险的决定因素。通过可解释框架量化个体患者风险,该模型为风险分层的围术期管理提供了基础。不过,该预测工具在改善患者结局方面的临床效用仍有待前瞻研究证实,即需明确基于模型引导预防措施能否降低术后谵妄发生率并改善术后认知轨迹。