基于浅层数据的疾病多标签预诊断机器学习策略研究

【字体: 时间:2025年06月17日 来源:Computer Methods and Programs in Biomedicine 4.9

编辑推荐:

  本研究针对基层医疗(GP)预诊断中数据有限和多标签分类的挑战,提出了一种结合降维机器学习策略的框架。研究人员通过3124例腹痛患者电子病历回顾性分析,采用分类器链(Classifier chain)和集成学习-DNN策略,系统评估了XGBoost、RF、LR、SVM等算法性能。结果显示分类器链-RF方法最优,I级疾病识别指标普遍超过0.90,II级疾病指标多数高于0.80。该研究为计算机辅助诊断提供了新思路,对优化医疗分诊系统具有重要意义。

  

在医疗资源分配紧张的当下,基层医疗机构的疾病预诊断面临巨大挑战。患者往往直接前往大型医疗机构就诊,导致分诊压力剧增。然而,基层预诊断通常只能获取浅层数据(如体征、症状和基础病史),难以进行详细检查。更复杂的是,这类诊断本质上是多标签分类问题,涉及大量目标疾病且存在共病现象。尽管已有基于相似性匹配和知识图谱的方法,但其临床适用性有限,特别是当相似症状对应不同疾病时准确率骤降。

遵义医科大学附属医院的研究团队针对这一难题,在《Computer Methods and Programs in Biomedicine》发表了创新性研究。他们开发了融合降维机器学习策略的框架,通过3124例腹痛患者电子病历的回顾性分析,系统比较了分类器链和集成学习-DNN两种策略的性能。研究采用递归特征消除交叉验证(REFCV)进行特征选择,使用Friedman检验和Nemenyi事后检验进行算法比较,重点评估了AUPRC、AUROC、F1等指标。

研究方法上,团队首先将疾病信息分层为I级(系统性疾病类别)和II级(疾病亚型)。针对高维稀疏特征矩阵问题,提出两种降维策略:分类器链策略将完整预诊断问题分解为One-vs-Rest子问题,通过链式结构逐步推断疾病信息;集成学习-DNN策略则将问题分解为C(N,K)个子问题,采用投票机制整合结果。研究还创新性地引入标签共现调整层处理疾病共现问题。

研究结果部分显示:

  1. 在I级疾病识别中,分类器链-RF表现最优,消化系统疾病、泌尿系统疾病、妇产科疾病的识别指标普遍超过0.90,仅血管病变稍逊(部分指标低于0.90)。
  2. II级疾病识别中,分类器链-RF仍保持优势,多数指标超过0.80,但输尿管疾病识别存在困难(两项指标低于0.60)。
  3. 全局性能评估表明,分类器链-RF在多标签分类中Hamming loss最低(0.015±0.003),在I级和II级疾病识别中均展现出最佳平衡性。
  4. 复杂度分析显示,分类器链-RF具有并行训练优势,相比XGBoost和DNN更适合大规模临床应用。

讨论部分指出,该研究的创新性在于首次系统解决了GP预诊断特有的三大难题:浅层数据限制、多标签分类复杂性和疾病共现问题。虽然在某些特定疾病(如孤立性输尿管病变)识别上仍有局限,但整体证明了基于机器学习的预诊断可行性。与现有方法相比,该框架不依赖详细检查数据,更符合基层医疗实际需求。

这项研究的重要意义在于:

  1. 为基层医疗提供了可靠的计算机辅助预诊断工具,有望优化分诊效率。
  2. 提出的分层识别策略可扩展至其他症状的预诊断系统开发。
  3. 特征选择和降维方法对处理医疗高维数据具有普适参考价值。
    研究者强调,该智能系统应作为辅助工具使用,高风险预诊断仍需人工复核,体现了严谨的医疗AI应用理念。未来研究将结合自然语言处理技术,进一步提升特征提取能力,并向更多疾病类型扩展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号