基于UMAP和机器学习算法的儿童B细胞急性淋巴细胞白血病复发风险预测新方法

《BioData Mining》:Automatic computational classification of bone marrow cells for B cell pediatric leukemia using UMAP

【字体: 时间:2025年10月22日 来源:BioData Mining 6.1

编辑推荐:

  本研究针对儿童B-ALL治疗后复发预测难题,开发了一种结合UMAP降维、DBSCAN聚类和SVM分类的计算流程,能够自动识别骨髓细胞亚群并追踪B细胞区室再生动力学。研究发现治疗第78天CD19和CD20的MFI差异可区分复发与非复发患者,为ALL预后评估提供了新的免疫表型标志物。该成果发表于《BioData Mining》,为白血病精准医疗提供了重要技术支撑。

  
在儿童血液肿瘤领域,B细胞急性淋巴细胞白血病(B-ALL)是最常见的恶性疾病之一。虽然当前治疗方案已显著提升患儿生存率,但仍有部分患者会出现治疗后复发,导致预后不良。如何早期识别这些高危复发患者,成为临床实践中的重大挑战。
传统的流式细胞术(FC)分析依赖于人工设门(gating)来识别细胞亚群,这种方法主观性强且效率低下。特别是在评估最小残留病灶(MRD)时,技术人员需要肉眼识别异常细胞群体,这个过程既耗时又容易产生人为误差。更重要的是,常规MRD检测主要关注白血病细胞本身,却忽视了治疗过程中健康造血系统再生的动态变化,而后者可能蕴含着预测复发的重要信息。
为了解决这些难题,Nino-López等研究人员在《BioData Mining》上发表了一项创新研究,他们开发了一套计算流程,能够自动分析流式细胞术数据,不仅精准识别细胞亚群,还能追踪B细胞再生动力学,从而预测患者的复发风险。
研究团队采用了几项关键技术:首先利用UMAP(均匀流形近似与投影)这一先进的降维技术,将高维流式数据转化为二维可视化图谱;接着应用DBSCAN(基于密度的空间聚类)算法自动识别细胞亚群;最后通过支持向量机(SVM)分类器将白血病细胞映射到健康细胞的参考框架中。研究纳分为75例B-ALL患儿的234份骨髓样本,包括诊断时(t0)、治疗第33天(t1)和第78天(t2)的样本,以及9份治疗结束后完全缓解患者的再生骨髓样本作为健康对照。
再生骨髓细胞的自动识别
研究人员首先对再生骨髓(RBM)样本进行分析,UMAP降维后清晰展示了四大细胞亚群:原始红细胞、髓系细胞、B淋巴细胞以及单核/淋巴细胞。DBSCAN聚类算法成功实现了这些亚群的自动识别,其结果与临床常规免疫表型分析高度一致。
特别值得关注的是B淋巴细胞的分析。研究人员进一步对再生B淋巴细胞(RBL)进行UMAP降维,成功区分出三个成熟阶段:早前B/前B细胞(高CD45、CD10、CD34)、过渡B细胞(高CD45、低CD34、高CD10)和成熟B细胞(高CD45、低CD34、CD10)。这种自动分型结果与传统的免疫表型分析完全吻合,但效率大幅提升。
白血病细胞的自动分类算法
基于再生骨髓建立的参考框架,研究团队开发了一套自动分类算法。他们使用SVM分类器在UMAP空间中定义细胞区域边界,然后将白血病骨髓(LBM)和白血病B淋巴细胞(LBL)数据投影到同一空间中进行自动分类。
这种方法不仅实现了细胞亚群的自动识别和计数,还能在单张图像中直观展示整个骨髓的细胞组成,为临床诊断提供了极大便利。研究发现,诊断时B-ALL患者的B淋巴细胞比例异常升高(约80%),且以幼稚B细胞为主,这与疾病的生物学特征完全一致。
复发与非复发患者的差异分析
通过对14例复发(R)和61例未复发(NR)患者的纵向分析,研究发现了关键时间点——治疗第78天(t2),
在这一时间点,复发患者的B淋巴细胞比例更接近健康再生骨髓,而未复发患者则显著偏高。更重要的是,B淋巴细胞表面标志物CD19和CD20的平均荧光强度(MFI)在两组患者间存在显著差异。
具体而言,复发患者B淋巴细胞的CD19和CD20 MFI值与健康再生骨髓更为接近,而未复发患者则存在显著差异。这种差异在B细胞的不同成熟阶段均有所体现,特别是在早前B/前B细胞的CD19 MFI和过渡B细胞的CD34 MFI方面。
基于这些发现,研究人员尝试构建简单的分类器,利用t2时间点CD19和CD20的MFI值来区分复发风险。虽然受限于样本量,分类准确率最高达到76%,但这一结果仍显示了免疫表型特征在预后预测中的潜力。
研究结论与意义
这项研究突破了传统MRD检测的局限,将关注点从单纯的白血病细胞检测扩展到整个造血系统的再生过程。研究所建立的计算流程不仅实现了细胞分型的自动化,大大提高了分析效率,更重要的是发现了B细胞再生动力学与疾病预后之间的内在联系。
治疗第78天这一关键时间点的识别具有重要临床价值,此时正是SEHOP-PETHEMA治疗方案中巩固治疗阶段的开始。该研究提示,在这一时间点,复发患者的免疫表型特征更接近健康状态,可能反映了其B细胞区室再生能力的恢复,而这种早期恢复反而可能与更高的复发风险相关。
值得注意的是,该研究采用的计算流程能够整合多维度流式细胞术数据,捕捉人工分析难以发现的细微差异。CD19和CD20等表面标志物的MFI差异虽然微小,但通过机器学习算法的放大,却展现出显著的预后价值。
当然,该研究也存在一些局限性,如样本量有限、回顾性研究设计以及技术批次差异等。特别是复发患者组样本较少(14例),可能影响统计效能和结论的普适性。此外,骨髓采集的侵入性使得健康对照样本难以大量获取,这也限制了再生模式的训练数据量。
尽管如此,这项研究为白血病精准医疗提供了新的思路和技术支撑。未来,随着前瞻性研究的开展和样本量的扩大,这种基于人工智能的流式细胞术数据分析方法有望成为临床预后评估的重要工具,帮助医生更早识别高危患者,实现个体化治疗干预。
从更广泛的意义来看,该研究展示了计算生物学在临床医学中的巨大潜力。通过将先进的机器学习算法与传统的实验技术相结合,我们能够从复杂生物数据中挖掘出前所未有的临床价值,最终造福患者。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号