基于机器学习的多类别地中海贫血分类模型:利用全血细胞计数和高效液相色谱数据实现精准诊断

【字体: 时间:2025年07月22日 来源:Scientific Reports 3.8

编辑推荐:

  研究人员针对地中海贫血(thalassemia)这一全球高发的遗传性血液疾病,开发了基于机器学习(XGBoost/SVM/KNN)的多类别分类模型,通过整合CBC(全血细胞计数)和HPLC(高效液相色谱)数据,实现了对α/β型地中海贫血(alpha/beta-thalassemia)及其轻重型亚类(major/minor)的精准鉴别,测试准确率达99.4%,为资源受限地区如巴基斯坦提供了高效筛查工具。

  

地中海贫血作为一种全球范围内影响超过100个国家的常见遗传性疾病,每年导致大量患者出现从轻度到重度的贫血症状。这种疾病由于珠蛋白基因(globin genes)异常引发慢性溶血性贫血、铁过载和红细胞生成障碍,尤其在巴基斯坦等高发地区,诊断面临严峻挑战。传统诊断方法依赖复杂的血红蛋白电泳和临床检查,不仅耗时耗力,在医疗资源匮乏地区更难以普及。面对这一困境,Riphah国际大学伊斯兰堡校区计算学院的研究团队开展了一项突破性研究,通过机器学习技术实现了对地中海贫血类型的精准自动化分类。

研究人员采用三种主流机器学习算法(XGBoost、SVM和KNN),基于41,028例患者的CBC和HPLC数据,构建了能够区分α/β型地中海贫血及其轻重型亚类的多类别分类模型。研究特别关注巴基斯坦患者群体特征,通过特征工程提取了包括血红蛋白浓度(Hb)、平均红细胞体积(MCV)、血红蛋白A2(HbA2)等关键指标,建立了适用于临床环境的决策系统。该成果发表在《Scientific Reports》期刊,为地中海贫血筛查提供了高效解决方案。

技术方法上,研究团队从巴基斯坦地中海贫血预防计划(PTPP)获取了大规模临床数据,包括9,987例通过HPLC确诊的α型地中海贫血携带者和11,000例β型地中海贫血携带者。数据预处理阶段采用去重、缺失值填补和分类变量编码等方法优化数据集。模型训练采用70%训练集和30%测试集的划分策略,通过特征选择提取最具判别力的血液指标,并采用多类别分类策略同时识别四种地中海贫血亚型。

研究结果部分,模型性能评估显示:

  1. CBC数据集上XGBoost表现最优,训练准确率达99.5%,测试中对β型重度(β-major)识别准确率98%,α型轻度(α-minor)达99.63%

  2. HPLC数据集中XGBoost同样领先,训练准确率99.4%,测试中对β型重度识别准确率99.07%

  3. SVM模型表现稳定,在HPLC数据上整体测试准确率达99.4%,特别擅长区分α和β型地中海贫血

  4. KNN算法在两类数据上表现稍逊,主要因样本分布敏感性导致β型轻度(β-minor)分类时出现交叉错误

  5. 五折交叉验证证实XGBoost鲁棒性最佳,CBC和HPLC数据平均准确率分别为98.75%和97.8%

研究结论部分强调,这是首个能同时识别α/β型地中海贫血及其轻重亚型的研究,突破了既往模型仅能检测单一类型的局限。XGBoost凭借其处理非线性关系和特征重要性评估能力,在两类临床数据上均展现出最优性能。该系统的实际意义在于:第一,为高发地区提供了成本效益显著的筛查方案,仅需常规血液检测数据即可实现精准分类;第二,通过早期识别无症状携带者,可有效阻断重症地中海贫血的遗传传递;第三,模型部署简便,适合巴基斯坦等发展中国家的医疗基础设施条件。

值得注意的是,研究团队通过与拉合尔UHS血液学专家组的联合验证,确认了模型输出的临床可靠性。未来研究方向包括扩大样本多样性、探索深度学习融合方案,以及开发适用于移动端的简化版本,这些改进有望将诊断准确率提升至新的高度。这项研究不仅为地中海贫血诊断设立了新标准,也为其他遗传性疾病的机器学习辅助诊断提供了可借鉴的范式。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号