编辑推荐:
为预测慢性阻塞性肺疾病(COPD)恶化,研究人员用机器学习建模,CatBoost 算法效果佳,助力医疗决策。
在呼吸健康的领域中,慢性阻塞性肺疾病(Chronic Obstructive Pulmonary Disease,COPD)犹如一颗 “定时炸弹”,威胁着全球众多患者的健康。它是一种常见的慢性呼吸道疾病,全球患病率高达 12.16%,给患者带来了沉重的健康负担。在疾病发展过程中,患者的病情常常会突然恶化,也就是 COPD 急性加重(exacerbation of COPD,eCOPD)。这不仅会导致患者肺功能下降、生活质量变差,还可能引发心血管疾病,甚至增加死亡风险,住院和再住院的循环更是让患者苦不堪言,同时也加重了医疗成本。
目前,对于 eCOPD 的预测和干预成为了医学领域的重要课题。现有的预测和干预手段存在诸多问题,比如缺乏统一客观的诊断标准,导致诊断具有主观性,难以精准判断。传统预测方法也难以发现数据背后复杂的关系和模式,无法满足临床需求。为了突破这些困境,来自西班牙多家机构(Hospital Galdakao - Usansolo、BioCruces - Bizkaia Health Research Institute 等)的研究人员开展了一项极具意义的研究,相关成果发表在《Scientific Reports》杂志上。
研究人员利用 telEPOC 远程医疗项目收集的数据,通过机器学习建立预测模型,旨在提前预判 COPD 患者病情恶化的风险,从而为临床干预争取时间,改善患者的健康状况。
在研究过程中,研究人员运用了多种关键技术方法。首先是数据处理技术,telEPOC 数据集包含患者每日提交的问卷数据,涉及 SpO2、心率、呼吸频率等多个变量。研究人员对数据进行清洗和整合,去除错误、重复和不合理的数据,保证数据质量。其次是模型构建技术,他们尝试了多种机器学习模型,如梯度树提升(CatBoost)、前馈神经网络、卷积神经网络等,并通过随机搜索超参数优化模型。最后,为评估模型性能,他们将数据集按时间顺序划分为训练集、验证集和测试集,使用受试者工作特征曲线下面积(Area Under the Receiver Operating Characteristic Curve,AUROC)和精确率 - 召回率曲线下面积(Area Under the Precision - Recall Curve,AUPRC)等指标进行评估。
下面来看看具体的研究结果:
- 模型比较与选择:经过大量实验对比,研究发现 CatBoost 算法表现最佳。在使用 11 天输入窗口(当前日加前 10 天数据)时,其 AUPRC 达到 0.53,AUROC 达到 0.91 ,优于其他神经网络模型。例如,前馈神经网络的 AUPRC 为 0.47,卷积神经网络的 AUPRC 为 0.43,均低于 CatBoost 算法。
- 输入窗口优化:研究人员测试了不同输入窗口大小对模型性能的影响。结果显示,输入窗口大小对 AUPRC 指标影响较大,综合考虑,选择当前日 + 10 天的输入窗口,此时模型在 AUROC 和 AUPRC 上都能取得较好结果。
- 模型可解释性分析:为了解模型如何做出预测,研究人员在简化数据集上训练模型,并进行 SHAP 分析。结果表明,呼吸频率、心率和 SpO2是预测红色警报(代表严重恶化)最重要的变量。
- 前瞻性分析与应用:研究人员收集额外数据集进行前瞻性分析,结果显示模型在新数据上表现稳定。此外,通过对前瞻性数据集中未出现红色警报但风险评分高的患者进行评估发现,根据模型选择高风险患者,能有效预测未来红色警报的发生。如选择预测得分最高的 5 名患者,可识别出 107 名后来出现红色警报的患者,而随机选择只能识别 23.5 ± 1.30 名。
研究结论表明,基于机器学习的 telEPOCML 系统能够较好地预测 COPD 患者病情恶化风险,尤其是 CatBoost 算法表现出色。该研究为 COPD 的管理提供了新的工具和思路,有助于医护人员提前干预,降低患者病情恶化风险,改善患者生活质量,同时也为慢性疾病管理模式的创新提供了参考。
不过,研究也存在一定局限性。数据来自特定的 telEPOC 项目患者队列,可能无法推广到其他人群或医疗环境;使用红色警报作为病情恶化的替代指标,可能无法完全反映 COPD 急性加重事件的复杂性 。未来研究需要进一步扩大样本范围,优化指标体系,提高模型的通用性和准确性。但总体而言,这项研究为 COPD 的防治开辟了新方向,有望推动远程医疗和机器学习在呼吸疾病管理中的广泛应用。