编辑推荐:
研究人员评估机器学习(ML)模型对危急健康状况的响应性,发现模型存在严重缺陷,强调需融入医学知识。
在医疗科技飞速发展的当下,机器学习(ML)技术逐渐走进医疗领域,尤其在重症监护病房的死亡率预测方面,ML 模型有望成为医生的得力助手,及时识别患者病情恶化并发出警报。然而,现实却不尽如人意。目前的 ML 模型测试存在诸多问题,现有测试集覆盖疾病状况有限,仅占现有数据集的 10 - 15%,难以全面评估模型在各种危急医疗情况下的表现。并且数据不平衡问题普遍,少数预测类别(如死亡类别)在数据集中占比低,导致模型对这些关键情况的评估不足。这使得在临床部署时,模型面对新的患者病情可能出现意外失败,无法准确为危急重症患者给出足够高的风险评分。为了解决这些问题,来自弗吉尼亚理工大学、橡树岭国家实验室等机构的研究人员开展了一项关于评估 ML 模型对危急健康状况响应性的研究。研究结果表明,统计机器学习模型存在严重缺陷,多数测试的 ML 模型无法对危急重症患者做出充分响应。该研究成果发表在《Communications Medicine》上,为医疗领域的机器学习应用敲响了警钟,也为后续研究指明了方向。
在研究方法上,研究人员开展了多项关键工作。首先,确定了预测任务、数据集和模型选择,聚焦于 48 小时院内死亡率(IHM)风险预测、5 年乳腺癌生存率(BCS)预测和 5 年肺癌生存率(LCS)预测这三个二元预测任务,使用了 MIMIC - III、eICU 和 SEER 等多个公开数据集,并选择了多种常用的 ML 模型。其次,对数据集进行预处理,针对不同类型的模型进行相应的数据转换和特征提取。然后,通过多种方法生成测试案例,包括基于属性的测试案例生成、梯度上升法生成测试案例等,以评估模型的响应性。同时,利用映射神经元激活和统计方法来分析模型性能。
研究结果部分:
- 格拉斯哥昏迷量表(GCS)测试下的 ML 性能:在 IHM 预测中,研究人员使用包含不同 GCS 评分的测试案例评估模型。结果显示,CW - LSTM 模型对 15 例严重损伤病例给出近乎零的死亡率风险值,预测不一致;LSTM 模型也存在类似不准确和不一致的情况,如误判严重损伤病例的生存可能性;而 LR 模型在严重损伤病例中能给出至少 0.3 的死亡率风险预测,对轻度损伤病例预测低风险,表现更稳定。
- 关键区域测试下的 ML 性能
- 单属性关键区域测试结果:评估 MIMIC III - 基于的 LSTM、CW - LSTM 和 LR 模型对单个恶化属性的响应能力时发现,CW - LSTM 模型无法识别大多数异常生命体征,LSTM 模型对部分异常有一定响应但仍存在不足,LR 模型对部分异常能给出较高风险预测,但三者平均仅能正确预测 37.7%、37.8% 和 22.4% 的单属性关键区域测试案例。
- 神经元激活分析:通过可视化 MIMIC III - 基于的 LSTM 模型中间层神经元输出,发现多数神经元对葡萄糖和舒张压变化响应低,对温度和呼吸频率变化有一定响应但在极端情况下响应不足。计算 NZA 和 ΔNAZ 量化神经元激活变化,LSTM 模型在多数情况下 ΔNAZ 较低。
- 多属性关键区域测试结果:在双属性变化测试中,CW - LSTM 模型对大多数关键区域案例无法生成高死亡率风险预测,LR 模型虽对部分组合预测较好但无法识别属性对的高低关键区域,LSTM 模型表现与单属性测试一致。在六属性变化测试中,CW - LSTM 模型对多数案例预测高死亡率风险,LR 模型全部预测错误,LSTM 模型对三分之二的案例预测正确。总体上,LR、LSTM 和 CW - LSTM 平均正确预测多属性关键区域测试案例的比例分别为 6.2%、45.7% 和 69.3%。
- 恶化条件测试案例的结果:利用梯度上升法生成 12 个健康状况恶化的时间序列测试案例,在单属性恶化测试中,LR、CW - LSTM 和 LSTM 模型分别检测到 22%、44% 和 56% 的案例;在多属性恶化测试中,LSTM 模型检测到全部案例,CW - LSTM 模型未检测到,LR 模型检测到 2 例。总体模型平均准确率为 44%。
- 5 年癌症生存率结果
- 单属性测试结果:评估 BCS 数据集训练的 MLP 模型对单个恶化属性的响应,发现其对肿瘤大小变化有一定响应但对关键阶段未触发警报,对 N3 阶段有部分警报但对其他阶段存在不足,对 ELN 变化无反应,对不同等级癌症警报生成不足。LCS - MLP 模型对肿瘤大小和阳性淋巴结数量变化响应较好,但对 ELN 变化无反应。树基集成方法对属性变化反应普遍较小。
- 双属性测试结果:BCS - MLP 模型在双属性变化测试中,对 T - N 组合预测较准确,但对其他组合表现不佳。在三属性变化测试中,对不同种子生成的案例预测准确率较高。
- Wasserstein 距离(WD)比较:计算原始数据集和生成测试案例的 WD,发现 IHM 预测中生成的多属性测试案例与原始训练集的 WD 较大,BCS 预测中生成的三属性测试案例与原始训练集的 WD 较小,这表明测试数据的分布变化对模型性能有影响。
- 重采样和重加权方法的影响:使用 SMOTE 和 AdaSyn 过采样方法以及重加权方法训练测试新模型,发现这些方法对模型响应性提升有限,在某些情况下甚至表现更差。
- Transformer 模型的响应性结果:Transformer 模型在死亡率预测中比 LSTM 模型更具响应性,但仍存在无法识别某些关键区域和响应延迟的问题。
研究结论和讨论部分指出,多数测试的 ML 模型无法对危急重症患者充分响应,这一问题在时间敏感的 IHM 预测中尤为突出。ML 模型的响应性与特征重要性有关,但对一些高排名特征响应仍不足。传统测试集分布与训练数据差异有限,现有模型在面对分布变化大的测试数据时表现不佳,这揭示了纯数据驱动模型的局限性。不同模型在不同测试场景下各有优劣,如 Transformer 模型虽有优势但仍不完美,简单模型如 LR 在处理某些数据类型时可能更合适。目前,部署过滤 - 预测工作流程、进行分布外检测等临床缓解方法存在挑战,而基于临床大语言模型(LLMs)的医疗基础模型是有前景的方向,但需定量评估其可信度。该研究为医疗领域 ML 模型的改进和临床应用提供了重要参考,强调了评估模型响应性的重要性,以及融入医学知识的必要性,推动了医疗 AI 向更可靠、更有效的方向发展。