基于随机森林与梯度提升算法的机器学习模型在缺铁性贫血和地中海贫血鉴别诊断中的应用研究

【字体: 时间:2025年05月16日 来源:Scientific Reports 3.8

编辑推荐:

  本研究针对缺铁性贫血(IDA)和地中海贫血(Thal)鉴别诊断的临床难题,通过随机森林(RF)和梯度提升(GB)算法构建机器学习模型,利用1143例患者血常规数据开发了高精度诊断工具。结果显示,二元分类模型准确率达90.7%,AUC-ROC为0.953,显著优于传统红细胞指数公式,为资源有限地区提供了高效筛查方案。

  

论文解读

在东南亚地区,缺铁性贫血(IDA)和地中海贫血(Thal)是导致低色素小细胞性贫血的两大主要病因。这两种疾病临床表现相似但治疗方案迥异:IDA需补铁治疗,而Thal患者补铁可能导致铁过载。传统鉴别依赖血清铁检测、血红蛋白(Hb)分析和DNA检测,但这些方法在资源有限地区难以普及。尽管已有15种基于红细胞指数的经验公式(如Mentzer指数、Sirdah公式),其准确率受人群差异影响显著,对同时合并IDA和Thal的复杂病例鉴别能力更有限。

泰国宋卡王子大学医学院的研究团队在《Scientific Reports》发表研究,首次将随机森林(RF)和梯度提升(GB)算法应用于IDA与Thal的鉴别诊断。研究纳入2015-2019年Songklanagarind医院的1143例患者数据(382例IDA、635例Thal、126例IDA合并Thal),以红细胞参数(Hb、Hct、MCV、MCH、MCHC、RDW等)结合年龄、性别为特征,通过80:20比例划分训练集与测试集,采用SMOTE技术平衡数据,最终开发出在线预测工具"PSUThal-IDA Pred"。

关键技术方法

  1. 队列构建:筛选MCV<80 fL的成人贫血患者,通过铁代谢指标(血清铁<16%、铁蛋白<30 ng/mL)和DNA分析确诊分组
  2. 机器学习:采用十折交叉验证优化RF和GB超参数,拉丁超立方采样筛选特征组合
  3. 性能评估:对比15种传统公式(如Hct/Hb、Green and King指数)的AUC-ROC差异

研究结果

二元分类模型表现卓越
在仅区分IDA与Thal时,GB和RF模型测试集准确率均达90.7%,AUC-ROC为0.953,显著优于最佳传统公式Hct/Hb(AUC-ROC 0.820)。特征重要性分析显示,平均红细胞血红蛋白浓度(MCHC)和平均红细胞体积(MCV)是关键指标,这与Thal患者铁储备正常而Hb合成缺陷的病理机制相符。

多分类模型面临挑战
当加入IDA合并Thal组后,模型性能下降:GB准确率80.4%(AUC-ROC 0.910),RF准确率82.2%(AUC-ROC 0.899)。对合并病例的识别灵敏度仅65-69%,反映复合病理生理的复杂性。

传统公式局限性凸显
15种红细胞指数公式中,仅Hct/Hb的AUC-ROC>0.8,其余公式(如Mentzer指数0.568、Shine & Lal公式0.529)在包含中间型地中海贫血(TI)的队列中表现欠佳,证实其仅适用于轻型Thal筛查。

讨论与意义
该研究首次证实机器学习在贫血鉴别诊断中的优越性:

  1. 临床价值:模型仅需常规血检参数,适用于基层医院,可减少75%不必要的DNA检测
  2. 技术突破:GB算法对MCHC和MCV的非线性关系捕捉能力优于线性公式
  3. 局限性:合并病例识别需结合临床病史,未来需扩大样本优化模型

研究团队开发的在线工具(https://srisintornw.shinyapps.io/small_mcv_prediction_cbc/)已投入临床使用,为泰国等高发地区提供低成本筛查方案。这项成果不仅推动贫血诊断进入AI时代,更为其他血红蛋白病(如镰状细胞贫血)的机器学习研究提供了范式。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号