
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于机器学习的可解释性风险预测模型:实现地中海贫血早期分类与基因分型的智能诊断
【字体: 大 中 小 】 时间:2025年06月11日 来源:npj Digital Medicine 12.4
编辑推荐:
本研究针对地中海贫血传统诊断依赖专业设备和技术人员的痛点,开发了基于CatBoost算法的机器学习模型,通过分析常规血液参数(RBC、HGB、MCV等)实现疾病识别和α/β基因分型。模型在31,311人的多中心队列中验证准确率达85.22%,外部验证平均准确率81.65%,显著优于现有判别公式。研究构建的在线平台(https://prediction-model-for-thalassemia.streamlit.app/)为资源有限地区提供了低成本筛查工具,相关成果发表于《npj Digital Medicine》。
地中海贫血作为全球最常见的单基因遗传病之一,每年导致数万新生儿死亡,尤其在东南亚和我国两广地区高发。传统诊断依赖基因检测和专业人员判读,但高昂成本和技术门槛使基层医疗机构难以开展大规模筛查。面对这一困境,广东省人民医院联合南方医科大学南方医院等机构的研究团队,创新性地将机器学习与常规血检指标结合,开发出可同时实现疾病筛查和基因分型的智能系统,相关成果发表于《npj Digital Medicine》。
研究团队采用前瞻性多中心队列设计,收集了2016-2024年间31,311例患者的10项临床特征(包括年龄、性别及8项血液参数)。通过SMOTE算法解决数据不平衡问题后,对比了8种机器学习模型性能。最终CatBoost模型在识别地中海贫血时AUC达0.86,α/β分型AUC 0.8420,并构建了首个开放访问的在线诊断平台。
主要技术方法
研究结果
Patient characteristics
训练队列中12,043例地中海贫血患者(α型7,642例,β型4,401例)与19,268例对照显示显著血液参数差异(P<0.001)。外部验证队列3因年龄较大(44 vs 33岁)和更低HGB(84 vs 112 g/L)成为模型鲁棒性测试的关键组。
Model comparison and external validation
CatBoost在原始数据中准确率83.24%,经SMOTE提升至85.22%。外部验证平均准确率81.65%,其中GDPH队列达83.6%。α/β分型任务中,模型准确率从80.49%提升至84.89%,仅GGPH队列因样本不足略低于80%。
Comparison of the optimal model and existing discrimination formulas
相较于SCSBTT等传统判别公式,CatBoost实现最佳平衡(灵敏度70%/特异度90%)。部分公式如RDW*MCV/RBC出现完全假阴性,证实机器学习模型的临床优越性。
Optimal model evaluation and interpretation
SHAP分析揭示:
Online platform for clinical application
平台整合模型权重文件,用户输入10项血检参数即可获得疾病风险及基因型预测,操作界面如图:

结论与意义
该研究首次构建了基于常规血检的机器学习辅助诊断体系,其创新性体现在:
生物通微信公众号
知名企业招聘