编辑推荐:
肝切除术后肝衰竭(PHLF)是肝切除术后的严重并发症,死亡率高且缺乏早期检测方法。研究人员开展了一项全国多中心回顾性研究,开发深度学习模型。结果显示该模型在早期检测 PHLF 上表现出色,有望改善围手术期管理和患者预后。
在肝脏手术的领域中,肝切除术后肝衰竭(Post-hepatectomy liver failure,PHLF)如同隐藏在暗处的 “杀手”,严重威胁着患者的生命健康。目前,PHLF 是肝切除术后的主要并发症,可导致患者死亡风险大幅增加 。然而,现有的检测手段却难以在早期发现 PHLF,通常要等到术后第 5 天及以后,依据血清总胆红素(TBIL)>1.2 mg/dl 和凝血酶原时间国际标准化比值(PT-INR)>1.2 等指标才能确诊,这无疑延误了最佳治疗时机。而且,当前的 PHLF 预测方法存在诸多弊端,如对患者数据考虑不全面、预测性能低、通用性有限等。在此背景下,开展一项能够实现 PHLF 早期精准检测的研究迫在眉睫。
为了解决这些难题,来自南方医院、佛山市第一人民医院、广东省中医院等国内多家医院的研究人员联合开展了一项全国多中心回顾性研究。他们致力于开发一种基于上下文感知的双向编码器表征转换(BERT)的深度学习模型,以实现对 PHLF 的稳健、通用且准确的早期预测,并在多个医疗中心进行验证。研究成果发表在《eClinicalMedicine》上,为肝切除手术的围手术期管理带来了新的希望。
在研究过程中,研究人员运用了多种关键技术方法。首先,他们收集了来自六个地理位置不同医院的 1832 例患者的围手术期电子健康记录(EHR)数据,包括患者基本特征、术前、术中和术后 24 小时内的因素 。同时,纳入了 242 例来自医疗信息数据库(MIMIC-IV)的西方患者数据用于评估模型对西方人群的适用性。其次,利用 Bio - Clinical BERT(BC - BERT)作为变量编码器,结合上下文感知的变压器模块,对围手术期数据进行深入的时间特征分析。最后,通过内部和外部验证,并与其他十一种机器学习和深度学习算法进行比较,评估模型性能。
研究结果主要包括以下几个方面:
- 患者特征:研究共纳入 1832 例中国患者和 242 例西方患者。中国患者中,PHLF 的发生率在不同队列有所差异,且 PHLF 患者与非 PHLF 患者相比,在肝脏疾病发生率、预后等方面存在显著差异 。西方患者队列中,PHLF 发生率为 10.33%,但由于数据限制,未进行分级。
- 模型开发与验证:在内部验证中,该模型检测 PHLF 的曲线下面积(AUC)达到 0.952,优于其他竞争算法;在外部验证中,中国队列的 AUC 为 0.884,西方队列的 AUC 为 0.654,同样表现出色,展示了模型良好的通用性。
- 模型特征解释:通过 SHAP 分析发现,术后 PT-INR、切除肝段数量、乙肝病毒(HBV)感染、大肝切除术和肝硬化等是影响 PHLF 早期检测的关键因素。同时,术中因素对早期检测的贡献最大,术后反映肝功能和损伤的指标比术前贡献更显著。
- 模型在不同围手术期阶段的性能:利用全围手术期数据时,模型检测 PHLF 的 AUC 最高。在仅使用术前或术前加术中数据时,模型也具有一定准确性,表明其在术前预测 PHLF 的潜力。
- 预测临床相关 PHLF 的性能:对于临床更具意义的 B/C 级 PHLF,模型在训练集和验证集中都取得了较高的 AUC 值,且漏诊率较低,证明其在预测临床相关 PHLF 方面的优势。
- 模型在风险分层中的预后意义:通过对不同风险因素分层的患者进行分析,发现模型在各亚组中均保持稳健的预测性能。同时,根据模型建立的风险分层,高风险组患者的 PHLF 发生率显著高于低风险组,且临床结局更差。
- 作为临床医生 AI 助手的能力:在处理不完整变量输入时,模型表现稳定,且随着输入变量增加,预测稳定性提高。与临床医生相比,模型在早期检测 PHLF 上表现更优,且能显著提高临床医生预测的准确性。
研究结论和讨论部分指出,该模型在准确性、通用性、可解释性和多功能性方面表现卓越,能够有效处理围手术期 EHR 数据,区分变量细微差别,捕捉术前术后阶段的时间差异,大幅提高 PHLF 的预测准确性。同时,模型可用于不同阶段的 PHLF 预测、风险分层以及辅助临床医生决策,对改善肝切除术后患者的预后具有重要意义。然而,研究也存在一定局限性,如样本量相对较小、部分关键临床变量未纳入、未涵盖其他 PHLF 诊断标准、研究为回顾性等。未来需要进一步开展大规模多中心研究,纳入更多关键变量,开发整合多种诊断标准的模型,并进行前瞻性研究以验证模型的临床意义。但总体而言,这项研究为肝切除术后肝衰竭的早期检测提供了创新的方法和思路,有望推动肝脏外科围手术期管理的变革,改善患者的治疗效果和预后。