无标注单细胞数据中疾病相关细胞的混合建模多示例学习发现方法

【字体: 时间:2025年08月28日 来源:SCIENCE ADVANCES 12.5

编辑推荐:

  这篇研究创新性地提出混合建模多示例学习(MMIL)算法,通过患者级标签实现单细胞水平的疾病关联分类,在急性白血病(AML/ALL)数据集验证中,其识别准确度接近血液病理学家水平,尤其擅长检测微小残留病(MRD)细胞,为缺乏金标准细胞标注的疾病机制研究和临床诊断提供了新范式。

  

混合建模多示例学习(MMIL)的创新突破

算法原理与优势

研究团队开发的MMIL算法通过期望最大化(EM)框架,仅需患者疾病状态标签即可训练细胞级二元分类器。其核心在于交替执行两个步骤:利用当前分类器预测细胞标签概率(E步),再用这些概率重新训练分类器(M步)。该算法兼容多种基础分类器(如lasso回归、梯度提升树等),并能整合部分标注数据,通过参数ρ(患者中基线细胞比例)和ζ(预测群体中患者细胞占比)调控模型敏感性。

在白血病诊断中的卓越表现

应用AML CyTOF数据集(13患者+3健康对照)时,MMIL在留一法交叉验证中达到0.751的平均AUROC,显著优于朴素模型(0.658),且与病理学家标注的"金标准"模型(0.945)特征选择高度一致。关键的是,MMIL成功识别出临床相关标志物:乳铁蛋白(lactoferrin)、核纤层蛋白A/C(lamin A/C)、CD45和核糖体RNA(rRNA),其中rRNA的阳性系数与病理诊断标准吻合。UMAP可视化显示,MMIL高概率区域与病理学家标注的AML原始细胞分布高度重叠。

半监督学习的鲁棒性提升

在"1-shot"实验中,仅需单个患者的标注数据即可使MMIL的AUROC提升0.058。当故意引入25%标注错误时,MMIL仍保持0.815的稳定性能,显著优于传统监督学习模型。这验证了其抗标注噪声能力,对存在观察者间变异的血液病理诊断(如AML原始细胞计数差异达25%)具有重要价值。

跨时间点与组织的泛化能力

在ALL纵向研究中,MMIL训练的诊断期模型对治疗第15天的外周血样本仍保持0.815的AUROC,而朴素模型性能降至0.662。这归功于其准确识别CD10+CD19+PAX5+CD34+的B细胞前体白血病表型,以及MRD标志物CD58——这些特征在化疗后仍稳定表达。

MRD预测的临床转化价值

在51例ALL诊断样本中,MMIL通过99%分位数概率阈值前瞻性区分MRD+/MRD-患者(AUROC=0.82)。更引人注目的是,诊断期高MMIL概率细胞在5例配对复发样本中显著扩增(P=0.006),这些细胞特征性高表达Ki-67、TSLPR和RAG1,暗示增殖与免疫逃逸机制可能是治疗抵抗的关键。

方法论比较与局限

相较于传统多示例学习(如mi-SVM)和聚类方法(PhenoGraph/FlowSOM),MMIL避免了联合概率计算偏差,更适合大规模单细胞数据。但需注意:①健康对照需确保无疾病细胞污染;②对批次效应敏感,需预先校正;③高维数据建议配合PCA降维(前15个PC可保留12%变异)。

这项研究为单细胞数据分析开辟了新途径,特别是在缺乏完整标注的复杂疾病(如癌症、自身免疫病)研究中,MMIL既能发现已知生物标志物,又能识别新型疾病相关细胞群体,有望推动精准诊断和动态监测的技术革新。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号