《Cytometry Part B: Clinical Cytometry》:Automated CLL cell population detection using a weakly supervised approach and CLL MRD flow cytometry data
编辑推荐:
本文综述了一种基于弱监督学习与多参数流式细胞术(multiparameter flow cytometry)的自动化机器学习方法,旨在高效检测和定量分析慢性淋巴细胞白血病(CLL)的微小残留病(MRD)。该方法仅需样本级别的标注信息(如MRD状态与肿瘤细胞百分比),通过UMAP降维与k均值聚类识别细胞亚群,并利用随机森林(Random Forest)分类器实现高准确率预测,从而显著减少了传统依赖细胞级别标注的人工成本与主观性。
引言
微小残留病(MRD)或可测量残留病(MRD)的检测在多种血液系统恶性肿瘤的管理中具有重要意义,包括急性白血病、浆细胞肿瘤以及慢性淋巴细胞白血病/小淋巴细胞淋巴瘤(CLL/SLL)。流式细胞术(flow cytometry)因能快速分析数千个细胞/秒,成为检测少量残留癌细胞的有效工具。然而,随着流式面板中标记物数量的增加,传统通过双参数散点图进行细胞群“设门”(gating)的分析方法变得繁琐,自动化需求日益凸显。既往大多数自动化MRD检测算法依赖细胞级别的标注(即手动标记每个细胞是否为肿瘤细胞),训练成本高。本研究提出了一种弱监督方法,仅需样本级别的标注(MRD阳性/阴性状态及肿瘤细胞百分比),即可实现CLL MRD的自动检测与定量预测。
方法
本研究方法结合了降维、聚类与机器学习分类。具体步骤包括:
- 1.
采样与降维:从训练数据中随机采样100万个细胞,利用Uniform Manifold Approximation and Projection(UMAP)算法将高维数据(14个标记物)投影至二维嵌入空间。
- 2.
聚类:对UMAP嵌入使用k均值(k-means)聚类(默认k=1000),将细胞划分为k个簇。
- 3.
特征提取:将每个样本的所有细胞投影至同一UMAP空间,根据簇归属计算每个簇的细胞比例,得到一个长度为k的特征向量。
- 4.
分类与回归:使用特征向量训练随机森林分类器进行MRD状态(阳性/阴性)的二元预测;同时,利用肿瘤细胞百分比标注训练随机森林回归模型,预测肿瘤细胞比例。
- 5.
特征选择:通过随机森林的特征重要性分析,识别对预测关键的细胞簇,可合并低重要性簇以简化特征空间。
本研究使用了一组包含287例CLL患者的数据集(192例MRD阳性,95例MRD阴性),所有样本均采用相同的14色MRD抗体面板进行分析。通过三折交叉验证评估模型性能。
结果
- 1.
MRD状态分类:使用k=1000个簇时,随机森林分类器在三折交叉验证中取得了聚合平衡准确率0.9(宏观平均F1分数0.9)。通过特征重要性分析筛选关键簇(数量降至18-71个)后,性能略有提升,聚合平衡准确率达0.927。
受试者工作特征曲线(ROC)分析显示,模型能可靠识别肿瘤细胞比例高于5%的MRD阳性病例;所有假阴性病例的肿瘤比例均低于5%。
- 2.
肿瘤细胞百分比预测:随机森林回归模型预测的肿瘤细胞百分比与真实值具有高度相关性(所有病例Pearson相关系数0.872,MRD阳性病例为0.860)。
- 3.
基于机理的细胞过滤效果:在UMAP构建阶段过滤掉非存活细胞和双联体细胞,或额外过滤低CD19表达的细胞,模型性能均得以维持,表明方法对数据噪声具有一定鲁棒性。
- 4.
关键细胞簇的标记物表达:对分类重要的细胞簇(推测为肿瘤细胞)在CD19、CD5、CD20、CD43等标记物上表现出与非重要簇细胞的明显区分。
- 5.
计算时间:构建一个包含100万个细胞的UMAP嵌入约需15分钟,将一个样本投影至UMAP空间并分配簇标签约需4.5分钟,随机森林预测时间可忽略不计,显示该方法具备临床应用潜力。
讨论
本研究提出的弱监督方法在CLL MRD检测中取得了与需要细胞级别标注的先进方法相媲美的性能。其核心优势在于大幅降低了模型训练所需的人工标注成本,仅利用临床流式报告中易获取的样本级别信息。UMAP与k均值聚类的结合有效识别了细胞亚群,随机森林则提供了稳健的分类与回归能力。与自组织映射(SOM)等替代降维方法相比,UMAP在本数据上展现了更清晰的簇边界。尽管存在UMAP图中出现多个“岛屿”状细胞群的现象,但分析表明其主要反映细胞类型差异而非批次效应。未来改进方向包括探索更高效的聚类算法(如可处理不同形状簇的方法)以及扩展模型至其他细胞类型或疾病。本研究代码已公开,并计划进行临床部署测试。
结论
总之,这项研究开发并验证了一种用于CLL MRD检测和定量的弱监督机器学习流程。该方法仅需弱标注数据,即可自动识别相关细胞群并对新样本进行准确预测,为临床流式细胞术数据分析的自动化、标准化和高效化提供了有前景的解决方案。