
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于随机森林与梯度提升算法的机器学习模型在缺铁性贫血和地中海贫血鉴别诊断中的应用研究
【字体: 大 中 小 】 时间:2025年05月16日 来源:Scientific Reports 3.8
编辑推荐:
本研究针对缺铁性贫血(IDA)和地中海贫血(Thal)鉴别诊断的临床难题,通过随机森林(RF)和梯度提升(GB)算法构建机器学习模型,利用1143例患者血常规数据开发了高精度诊断工具。结果显示,二元分类模型准确率达90.7%,AUC-ROC为0.953,显著优于传统红细胞指数公式,为资源有限地区提供了高效筛查方案。
论文解读
在东南亚地区,缺铁性贫血(IDA)和地中海贫血(Thal)是导致低色素小细胞性贫血的两大主要病因。这两种疾病临床表现相似但治疗方案迥异:IDA需补铁治疗,而Thal患者补铁可能导致铁过载。传统鉴别依赖血清铁检测、血红蛋白(Hb)分析和DNA检测,但这些方法在资源有限地区难以普及。尽管已有15种基于红细胞指数的经验公式(如Mentzer指数、Sirdah公式),其准确率受人群差异影响显著,对同时合并IDA和Thal的复杂病例鉴别能力更有限。
泰国宋卡王子大学医学院的研究团队在《Scientific Reports》发表研究,首次将随机森林(RF)和梯度提升(GB)算法应用于IDA与Thal的鉴别诊断。研究纳入2015-2019年Songklanagarind医院的1143例患者数据(382例IDA、635例Thal、126例IDA合并Thal),以红细胞参数(Hb、Hct、MCV、MCH、MCHC、RDW等)结合年龄、性别为特征,通过80:20比例划分训练集与测试集,采用SMOTE技术平衡数据,最终开发出在线预测工具"PSUThal-IDA Pred"。
关键技术方法
研究结果
二元分类模型表现卓越
在仅区分IDA与Thal时,GB和RF模型测试集准确率均达90.7%,AUC-ROC为0.953,显著优于最佳传统公式Hct/Hb(AUC-ROC 0.820)。特征重要性分析显示,平均红细胞血红蛋白浓度(MCHC)和平均红细胞体积(MCV)是关键指标,这与Thal患者铁储备正常而Hb合成缺陷的病理机制相符。
多分类模型面临挑战
当加入IDA合并Thal组后,模型性能下降:GB准确率80.4%(AUC-ROC 0.910),RF准确率82.2%(AUC-ROC 0.899)。对合并病例的识别灵敏度仅65-69%,反映复合病理生理的复杂性。
传统公式局限性凸显
15种红细胞指数公式中,仅Hct/Hb的AUC-ROC>0.8,其余公式(如Mentzer指数0.568、Shine & Lal公式0.529)在包含中间型地中海贫血(TI)的队列中表现欠佳,证实其仅适用于轻型Thal筛查。
讨论与意义
该研究首次证实机器学习在贫血鉴别诊断中的优越性:
研究团队开发的在线工具(https://srisintornw.shinyapps.io/small_mcv_prediction_cbc/)已投入临床使用,为泰国等高发地区提供低成本筛查方案。这项成果不仅推动贫血诊断进入AI时代,更为其他血红蛋白病(如镰状细胞贫血)的机器学习研究提供了范式。
生物通微信公众号
知名企业招聘