编辑推荐:
为解决 TBI 患者临床路径(CPs)预测及解释问题,伊朗研究人员开展机器学习框架预测 TBI 患者 CPs 和结局的研究。结果显示该框架准确性高且可解释。推荐阅读,助您了解前沿医疗预测技术。
在医疗领域,创伤是导致死亡和急诊就诊的重要原因之一,其中创伤性脑损伤(TBI)更是在创伤相关的死亡率和发病率中占比极高,被称为 “沉默的流行病”。全球每年有 2700 - 6900 万人被诊断为 TBI,很多患者在死亡前还能交谈或听从指令,这背后反映出二次损伤的影响,它与初始损伤一起大大增加了患者的死亡风险。像硬膜下血肿、弥漫性轴索损伤、脑挫裂伤等都是 TBI 常见的后遗症,也是开颅手术的常见指征。在 TBI 发生后的 “黄金小时” 内进行及时的诊断、治疗,能显著降低死亡率,改善患者预后。
除了准确预测 TBI 的结果,预测临床路径(CPs,指医护人员从患者入院到出院遵循的标准化疾病护理模式,涵盖检查、手术、治疗和护理等环节 )对指导医生进行护理管理也至关重要。过去,CPs 的概念主要基于专家的临床知识手动确定,这种方式导致 CPs 结构静态且缺乏适应性。随着电子健康记录(EHRs)的发展,CPs 挖掘开始从知识驱动转向数据驱动,从 EHRs 中挖掘 CPs 能揭示客观信息,有助于设计更具适应性的 CPs 或更好地预测治疗程序。
不过,挖掘 CPs 并非易事。由于护理过程中的治疗行为极其复杂,挖掘出的 CPs 常常像一团乱麻,很难理解,也不便于辅助临床专家。虽然基于深度学习的过程挖掘方法在一定程度上能做出准确预测,但这类算法的 “黑箱” 特性使得它们难以融入医疗实践,毕竟在医疗领域,透明度和可解释性至关重要。以往预测模型常用的性能指标,如准确率或 F 分数,显然不足以解释模型预测的合理性,临床医生需要理解为什么会预测出某种 CPs 行为。因此,创建一个可理解的模型来解释决策过程背后的性能和原理迫在眉睫。
为了解决这些问题,来自伊朗国家创伤登记处(NTRI)所属研究机构的研究人员在《npj Digital Medicine》期刊上发表了题为 “A machine learning framework for predicting clinical pathways and outcomes of traumatic brain injury patients” 的论文。研究人员构建了一个机器学习框架,利用真实世界的事件数据来表征和预测 TBI 患者的 CPs 和结果,取得了一系列重要成果,对推动医疗决策支持系统的发展具有重要意义。
在这项研究中,研究人员运用了多个关键技术方法。首先是数据收集,他们从伊朗国家创伤登记处(NTRI)获取数据,该登记处存储了大量患者的详细受伤信息,研究人员仅选取了与 TBI 相关的数据,这些数据包含患者人口统计信息、受伤描述、医疗护理信息等多个方面。然后是追踪聚类,采用改进的马尔可夫聚类算法(MCL),将具有相似长度的轨迹划分为同一组,为后续预测提供基础。决策树分类则使用最优决策树(ODT),通过混合整数优化(MIO)解决树的构建问题,避免了传统决策树的一些弊端,能更准确地进行分类预测。此外,还运用了数据预处理技术,将原始的异构数据(包括数值、分类和文本数据)进行处理,将各类特征编码为适合 ODT 的二进制形式。
数据预处理和编码
研究人员在数据处理上花费了不少心思。他们制定了一系列机器学习标准,包括数据集大小标准、数据变体标准和数据集平衡标准。通过分析发现,TBI 事件日志中,前缀长度超过 27 个事件和短于 5 个事件的部分,结果分布不均衡,不利于模型训练;而前缀长度超过 30 个事件的部分,在总变体中占比很小。综合考虑后,研究人员选择 5 到 25 之间的预测点来生成 TBI 事件日志的前缀,这样既能保证有足够的数据训练模型,又能让所选前缀代表整个事件日志。这就好比在建造高楼时精心挑选合适的基石,为后续的研究工作打下了坚实基础。
实验结果
研究人员将 ODT 的性能与 CatBoost 和 XGBoost 进行了对比。梯度树提升是机器学习中一种流行且高效的方法,在许多应用中表现出色,CatBoost 和 XGBoost 都是基于梯度树提升的框架。在实验中,研究人员采用 3 折交叉验证的方法,在配备 2.5 GHz 英特尔酷睿 i5 四核处理器和 12 Gb 内存的计算机上,运用 Sci-kit learn Python 库开展实验。
实验结果显示,ODT 的表现略优于 XGBoost 和 CatBoost。尤其是在小前缀尺寸(2 < n < 8)时,ODT 的优势更为明显,不过随着 n 的增加,这种优势会逐渐减弱。当前缀大小 n≥15 时,几乎所有方法的 AUC(受试者工作特征曲线下面积,用于评估二元分类模型区分正负类别的性能,取值范围在 0 到 1 之间,AUC = 0.5 表示分类器性能低于随机猜测,AUC = 1 表示完美分类器 )都能大于 0.8。研究还发现,不同预测点对模型决策有影响,比如在点 5 时,由于信息不足,模型可能无法做出准确预测;而在点 15 时,护理过程推进,模型能获取丰富信息,此时模型的解释有助于理解产生特定结果的过程属性。
通过分析还确定了对预测任务贡献最大的特征,包括 ICU 住院时间(ICU LOS)、格拉斯哥评分(GCS)、受伤机制、是否进行手术、损伤严重程度评分(ISS)和性别等,这些参数与国家健康与护理研究所(NICE)公布的创伤风险因素和指南相符,验证了 ODT 模型的准确性。不过,由于输入数据中性别比例失衡等问题,模型也会出现错误,比如过高估计性别特征的得分。
研究人员还对具体案例进行了深入分析。对于案例 ID = 100785,该患者的治疗过程高效,各项时间间隔合理,相关特征与事件日志的总体均值相符,模型准确预测了其结果和 CP。LIME 条形图显示,年龄、因创伤住院次数、ICU LOS 和 ISS 等特征对正确预测有积极影响。
而案例 ID 1919241 和 1550940 这两个案例则反映出模型的错误预测情况。这两个患者的 ISS 都为 4,本不应被认为是致命或重伤,但模型却出现误判。分析发现,模型存在几个问题:一是对于 ISS 高或多发伤的患者,模型倾向于高估其住院时间或死亡风险;二是数据集中性别比例和平均年龄失衡,影响了模型判断,尤其是遇到训练阶段未见过的病例时,更容易出错;三是 NTRI 的数据是手动记录的,可能存在噪声或人为错误,影响模型的预测能力。
还有案例 ID = 1140630,由于模型观察到其前缀的特定模式(如 “氧气面罩” 后接 “胸管” 活动 ),就估计该患者死亡或重复胸部 X 光检查的概率较高,但实际上患者住院一个多月后出院。SHAP 分析表明,注射、固定和手术活动等特征对患者出院有重要影响。
综合来看,在训练数据集较大时,ODT 的性能更优,并且在处理长轨迹时表现更好,但在案例数量少或轨迹短时,优势不明显。
研究结论和讨论
这项研究构建的基于最优决策树的预测模型包含追踪聚类、编码器和预测模型三个部分。研究人员运用 SHAP 值对模型进行解释,在患者层面评估每个特征对预测结果的贡献和程度,在群体层面揭示训练模型和输入特征的行为。通过专家调查评估模型的可行性、适用性等方面,结果显示,大多数专家认为该模型在效率和创新性方面表现良好,部分专家认可其在预测和监测护理流程方面的适用性,但在易懂性方面还有提升空间,可能需要为用户安排培训以熟悉相关概念。
研究还发现,COVID-19 大流行对护理流程产生了影响,如住院时间和 ICU 住院时间缩短,这主要是因为居家隔离减少了严重受伤情况,同时 COVID-19 患者使 ICU 拥挤,导致其他患者入院标准更严格。不过,在创伤患者的死亡率和医学成像程序方面未发现明显变化。
与其他类似研究相比,该系统的追踪聚类组件会考虑执行活动的顺序,为模型提供事件相关数据,这是其独特之处。但树基模型容易出现过拟合问题,需要进行特征选择。而且机器学习模型在处理未观察到的数据时表现不佳,医学应用中数据隐私和知识产权问题也增加了获取理想数据集的难度,模型还可能学习到不具有普遍性或临床意义的模式,引入隐藏偏差。
总体而言,这项研究为预测 TBI 患者的临床路径和结果提供了有效的机器学习框架,在一定程度上解决了医疗决策支持系统中模型可解释性和准确性的问题,对医疗领域的决策支持和护理管理具有重要的指导意义。不过,研究也指出了未来的研究方向,如进一步优化特征选择和解释方法,以提高模型的性能和可靠性,更好地服务于临床实践。