机器学习赋能川崎病早期诊断:基于血常规的精准预测

【字体: 时间:2025年02月26日 来源:Scientific Reports 3.8

编辑推荐:

  为解决川崎病(KD)早期诊断难题,广州妇女儿童医疗中心研究人员开展基于机器学习的诊断模型研究,发现 XGBoost 模型用血常规预测 KD 准确性高,为临床诊断提供新工具。

  川崎病(Kawasaki disease,KD)是一种让家长们谈之色变的儿童疾病,它就像一个隐藏在暗处的 “小怪兽”,专门攻击 6 个月到 5 岁孩子的中等大小动脉。如果得不到及时治疗,大约 25% 的患儿会面临冠状动脉瘤的风险,这可能引发心肌梗死,严重时甚至会危及生命。目前,KD 的临床诊断主要依赖医生观察孩子的症状表现,比如持续发烧超过 5 天,同时还要出现至少 4 种特定的身体症状,像手脚皮肤变化、皮疹、眼睛发红、嘴唇和口腔改变、颈部淋巴结肿大等 。但这个诊断标准并不完美,有些孩子的症状不典型,容易被忽视,而且这些症状也可能和其他疾病相似,导致诊断困难。更麻烦的是,在孩子发烧的前 5 天内,很难依据现有的诊断标准就确定是不是 KD,这就可能错过最佳治疗时机。如果能在早期就准确诊断出 KD,及时给孩子用上静脉注射免疫球蛋白(IVIG),就能把冠状动脉瘤的发生率从 25% 降到 3%,还能降低死亡率,让孩子更快好起来。所以,找到一种快速、准确的早期诊断方法迫在眉睫。
为了攻克这一难题,广州妇女儿童医疗中心的研究人员挺身而出,展开了一项意义重大的研究。他们希望借助机器学习的力量,开发出一种能在孩子发烧 5 天内,仅通过常规血常规检查就能预测 KD 的模型。最终,研究取得了令人惊喜的成果,相关研究成果具有重要的临床意义。该研究成果目前尚未提及发表在具体哪个期刊。

在研究过程中,研究人员主要运用了以下关键技术方法:首先,从广州妇女儿童医疗中心 2020 年 1 月 1 日至 2024 年 4 月 30 日的病历记录中,收集了大量儿童的回顾性横断面数据,这些数据涵盖了性别、年龄、诊断结果和血常规检查结果等信息 。接着,运用了三种特征选择策略,分别是 Lasso L1 正则化(通过惩罚回归系数绝对值来筛选重要特征)、t 检验 / 卡方检验(评估特征与目标变量的独立性)和不进行特征选择(作为对比基准) 。最后,采用了包括逻辑回归、支持向量机、多层感知器等 3 种机器学习算法和随机森林、LightGBM 等 5 种集成模型进行分析,用 Python 中的多种库完成数据处理、模型训练和性能评估。

下面来详细看看研究结果:

  • 背景和临床特征:研究人员仔细梳理数据后发现,KD 组和非 KD 组在很多方面都存在差异。从性别分布来看,两组中男孩的比例都比较高。年龄上,KD 患者的平均年龄为 32.833 个月,明显比非 KD 患者的 45.310 个月小。在血常规指标方面,KD 患者的嗜碱性粒细胞绝对值(BA#)、嗜碱性粒细胞百分比(BA%)、C 反应蛋白(CRP)等指标的均值较高,而血细胞比容(HCT)、血红蛋白(HGB)等指标的均值较低 。这些差异为后续研究提供了重要线索。
  • 特征选择使用 Lasso L1 正则化:研究人员通过生成热图和分析 Lasso L1 正则化中特征系数,发现不同特征对模型预测的影响各不相同。像 CRP、HCT、血小板计数(PLT)等特征的系数为正,说明它们对诊断 KD 有正向影响;而淋巴细胞百分比(LYMPH%)、平均红细胞血红蛋白(MCH)等特征的系数为负,意味着它们与 KD 呈负相关 。这些结果有助于筛选出对诊断 KD 更重要的特征。
  • 模型性能使用 5 折交叉验证:研究人员用 5 折交叉验证评估了不同模型在不同特征选择策略下的性能。结果显示,XGBoost 模型表现最为出色,无论采用哪种特征选择方法,它的受试者工作特征曲线下面积(AUC)都能达到 0.9999,准确率也高达 0.9978 - 0.9979 。多层感知器、LightGBM 和随机森林等模型也表现优异,而逻辑回归模型相对较弱。这表明 XGBoost 模型在诊断 KD 方面具有很高的可靠性。
  • XGBoost 模型的性能:进一步深入研究 XGBoost 模型发现,它的各项性能指标都很优秀。从对数损失与轮次曲线可以看出,随着训练轮次增加,模型逐渐收敛;精确率 - 召回率曲线显示其精确率和召回率都很高,AUC 达到 1.00;学习曲线表明,随着训练样本数量增加,模型在交叉验证集上的准确率不断提高,且没有出现过拟合现象 。此外,通过 SHAP 值分析发现,嗜酸性粒细胞百分比(EO%)、HCT、血小板压积(PCT)、性别和 BA# 是影响模型预测的重要特征。

在研究结论和讨论部分,研究人员指出,该研究首次证明了仅依靠常规血常规检查,借助机器学习模型就能高精度地诊断 KD,成功解决了发烧前 5 天内难以开展大量检查的临床难题。研究发现的 EO%、HCT、PCT、性别和 BA# 等重要特征,为深入了解 KD 的发病机制提供了新方向。而且,XGBoost 模型在诊断 KD 时展现出超高的准确性和 AUC,相比其他需要复杂检查的研究方法,本研究仅基于常规血常规,更加简单实用,有望成为基层医疗单位和急诊室诊断 KD 的有力工具。

不过,研究也存在一些不足。比如,数据仅来自单一中心,可能无法代表不同地区、不同种族人群的情况;研究未考虑社会和环境等潜在影响因素;虽然用随机过采样方法处理了数据不平衡问题,但还需要更大规模、多中心的前瞻性研究来进一步验证模型的可靠性 。尽管如此,这项研究依然为 KD 的早期诊断开辟了新道路,未来研究人员可以针对这些不足继续探索,不断完善诊断模型,让更多孩子受益。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号