
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于浅层数据的疾病多标签预诊断机器学习策略研究
【字体: 大 中 小 】 时间:2025年06月17日 来源:Computer Methods and Programs in Biomedicine 4.9
编辑推荐:
本研究针对基层医疗(GP)预诊断中数据有限和多标签分类的挑战,提出了一种结合降维机器学习策略的框架。研究人员通过3124例腹痛患者电子病历回顾性分析,采用分类器链(Classifier chain)和集成学习-DNN策略,系统评估了XGBoost、RF、LR、SVM等算法性能。结果显示分类器链-RF方法最优,I级疾病识别指标普遍超过0.90,II级疾病指标多数高于0.80。该研究为计算机辅助诊断提供了新思路,对优化医疗分诊系统具有重要意义。
在医疗资源分配紧张的当下,基层医疗机构的疾病预诊断面临巨大挑战。患者往往直接前往大型医疗机构就诊,导致分诊压力剧增。然而,基层预诊断通常只能获取浅层数据(如体征、症状和基础病史),难以进行详细检查。更复杂的是,这类诊断本质上是多标签分类问题,涉及大量目标疾病且存在共病现象。尽管已有基于相似性匹配和知识图谱的方法,但其临床适用性有限,特别是当相似症状对应不同疾病时准确率骤降。
遵义医科大学附属医院的研究团队针对这一难题,在《Computer Methods and Programs in Biomedicine》发表了创新性研究。他们开发了融合降维机器学习策略的框架,通过3124例腹痛患者电子病历的回顾性分析,系统比较了分类器链和集成学习-DNN两种策略的性能。研究采用递归特征消除交叉验证(REFCV)进行特征选择,使用Friedman检验和Nemenyi事后检验进行算法比较,重点评估了AUPRC、AUROC、F1等指标。
研究方法上,团队首先将疾病信息分层为I级(系统性疾病类别)和II级(疾病亚型)。针对高维稀疏特征矩阵问题,提出两种降维策略:分类器链策略将完整预诊断问题分解为One-vs-Rest子问题,通过链式结构逐步推断疾病信息;集成学习-DNN策略则将问题分解为C(N,K)个子问题,采用投票机制整合结果。研究还创新性地引入标签共现调整层处理疾病共现问题。
研究结果部分显示:
讨论部分指出,该研究的创新性在于首次系统解决了GP预诊断特有的三大难题:浅层数据限制、多标签分类复杂性和疾病共现问题。虽然在某些特定疾病(如孤立性输尿管病变)识别上仍有局限,但整体证明了基于机器学习的预诊断可行性。与现有方法相比,该框架不依赖详细检查数据,更符合基层医疗实际需求。
这项研究的重要意义在于:
生物通微信公众号
知名企业招聘