Fluoro-forest:基于随机森林的细胞注释工作流,解决高维免疫荧光成像中训练数据稀缺的难题

《Bioinformatics Advances》:Fluoro-Forest: A random Forest workflow for cell type annotation in high-dimensional immunofluorescence imaging with limited training data

【字体: 时间:2025年12月25日 来源:Bioinformatics Advances 2.8

编辑推荐:

  为解决高维免疫荧光(IF)成像数据中细胞类型注释困难、现有方法在训练数据有限时表现不佳的问题,研究人员开发了Fluoro-forest。该研究提出了一种基于半监督随机森林的端到端工作流,通过聚类引导采样构建训练集,实现了在训练集仅占测试细胞总数<5%的情况下,对细胞类型进行高精度预测。结果表明,Fluoro-forest在有限训练数据下,其预测准确性优于代表性深度学习和概率方法,为复杂IF数据的分析提供了更高效、可解释的解决方案。

  
在生命科学和医学研究的前沿,高维免疫荧光(Immunofluorescence, IF)成像技术,如CODEX,正以前所未有的分辨率揭示着组织的复杂结构。这些技术能够同时检测数十种蛋白质标记物,为科学家们描绘细胞类型、功能状态及其空间分布提供了强大的工具。然而,随着数据维度的急剧增加,如何准确、高效地为成千上万个细胞“贴标签”——即细胞类型注释(Cell Type Annotation),成为了一个巨大的挑战。
目前,主流的分析流程通常依赖于无监督聚类(Unsupervised Clustering)方法。简单来说,就是根据细胞表达谱的相似性,将它们自动分成不同的“群”。然后,研究人员再根据每个“群”的平均表达谱,手动为这些细胞群赋予细胞类型标签。这种方法虽然直观,但存在明显的缺陷。首先,它缺乏对注释结果的统计评估,无法给出每个细胞被正确分类的“信心”概率。其次,当细胞类型混杂或存在稀有细胞亚群时,基于平均值的注释方法很容易导致误判。例如,一个聚类中可能同时包含了内皮细胞、上皮细胞和T细胞,仅凭平均表达谱很难做出准确的区分。
与此同时,新兴的深度学习方法(如MAPS)虽然在某些任务上表现出色,但它们通常需要海量的、经过专家精确标注的训练数据,这在许多实际研究场景中(如小样本活检)是难以获得的。而像Celesta这样的概率方法,虽然不需要独立的训练集,但在处理细胞密度高、荧光信号重叠严重的区域时,可能会遇到困难。
面对这些挑战,来自威斯康星大学麦迪逊分校的研究团队提出了一种全新的解决方案。他们开发了一个名为Fluoro-forest的端到端Python工作流,旨在利用半监督学习(Semi-supervised Learning)策略,在训练数据极其有限的情况下,实现高精度的细胞类型注释。该研究已发表在《Bioinformatics Advances》杂志上。
关键技术方法
为了验证Fluoro-forest的有效性,研究人员首先利用现有的细胞分割工具(如StarDist或CellPose)对来自两个内部肛门发育不良活检样本的PhenoCycler/CODEX数据进行处理,获取了单细胞水平的蛋白质表达数据。随后,他们开发了一套基于随机森林(Random Forest)的机器学习工作流,该工作流首先通过无监督聚类(如Leiden算法)引导用户对代表性细胞进行采样和手动注释,构建训练数据集。最后,利用训练好的模型对剩余的大量未标记细胞进行预测,并输出每个细胞的分类概率和模型性能指标。为了进行性能比较,研究人员还将其与深度学习方法MAPS和概率方法Celesta在公开数据集和内部数据集上进行了基准测试。
研究结果
Fluoro-forest利用极少的训练数据即可实现高精度预测
为了评估Fluoro-forest的性能,研究人员首先进行了五折交叉验证(5-fold Cross Validation)。结果显示,该模型在内部数据集上达到了90.4±2.7%的平均准确率,并且所有细胞类型的F1分数均高于0.75,证明了其在识别真实类别、最小化假阳性和假阴性方面的强大能力。
为了凸显其优势,研究人员将Fluoro-forest的注释结果与基于Leiden聚类的传统工作流进行了比较。他们发现,无监督聚类虽然能够识别出上皮细胞内的不同亚群,但在区分某些细胞类型时存在明显困难。例如,Leiden聚类算法生成的第5个簇中,竟然混杂了内皮细胞、上皮细胞、CD4 T细胞和基质细胞。这种细胞类型的混合,使得仅凭平均表达谱进行注释变得异常困难。具体而言,Leiden聚类未能将FOXP3+T调节细胞(Tregs)与其他CD4+T细胞区分开来,也未能将CD31+内皮细胞与SMA+基质细胞分开。这些结果表明,在复杂的数据中,无监督聚类方法存在局限性,而监督机器学习方法则显示出其必要性。
Fluoro-forest在训练数据有限的情况下优于现有方法
为了进一步证明Fluoro-forest的优越性,研究人员将其与当前最先进的深度学习方法MAPS和概率方法Celesta进行了头对头的比较。
在与MAPS的比较中,研究人员使用了MAPS作者提供的、经过专家注释的淋巴瘤CODEX数据。他们通过五折交叉验证,比较了在不同训练数据量下两种模型的性能。结果清晰地表明,当每个细胞类型的训练样本数少于100个时,Fluoro-forest在所有细胞类型上的表现均优于MAPS(Tregs除外,两者表现相当)。MAPS只有在每个类别的训练样本数超过100个时,其性能才开始超越Fluoro-forest。然而,对于许多研究而言,特别是那些稀有细胞类型样本数可能不足50个的小型数据集,标注超过100个细胞是极其耗时甚至不可能的。因此,Fluoro-forest在典型的、训练数据有限的使用场景中具有显著优势。此外,研究还发现,仅需每个类别30个训练样本,Fluoro-forest就能产生比MAPS更稳健的精确度-召回率曲线(Precision-Recall Curves),并且训练时间显著更快。
在与Celesta的比较中,研究人员发现Celesta采用了一种分层注释方法。当模型对细胞类型不确定时,它会生成更宽泛的父类标签(如“免疫细胞”、“T细胞”或“未知”)。虽然这种方法能够提供合理的概率分配,但其注释结果与Fluoro-forest相比存在差异。研究人员认为,Celesta可以作为一个可行的预处理步骤,用于快速生成训练标签,并在训练其他模型(如随机森林)之前纠正错误,从而提升整体性能。
研究结论与讨论
这项研究证明了半监督学习方法在高维免疫荧光数据细胞类型注释中的巨大优势。与传统的聚类方法相比,Fluoro-forest不仅提高了注释的准确性,还提供了可解释的概率输出,即模型对每个细胞分类的置信度,这是大多数聚类方法所不具备的。
研究结果表明,对于大多数细胞类型,每个类别仅需采样20-30个细胞就足以实现高精度的预测。在训练数据量适中的情况下,Fluoro-forest的表现优于深度学习方法。因此,当训练数据足够大时,推荐使用深度学习方法;但在训练数据有限的情况下,Fluoro-forest是一个更优的选择。
尽管取得了显著进展,该研究也指出了当前方法的局限性。首先,对于稀有细胞类型的注释,现有的采样策略仍然具有挑战性,未来通过集成主动学习(Active Learning)策略可能会有所改善。其次,模型的性能高度依赖于训练数据的质量,而组织中的高细胞密度区域往往难以进行精确的人工注释,这可能会影响模型的泛化能力。
最后,研究人员发现,模型在不同样本间的泛化能力有限。当在一个样本上训练模型,然后直接用于预测另一个样本时,准确率会从90%以上显著下降到70%以下,且不同的标准化方法也无法解决这一问题。这表明批次效应(Batch Effect)和供体异质性(Donor Heterogeneity)是未来需要克服的重要挑战。研究人员认为,通过额外的特征工程或整合其他机器学习和预处理模块,有望解决这些问题。
总而言之,Fluoro-forest为高分辨率、高维度细胞注释提供了一个宝贵且简化的用户界面,为生物医学研究者在处理复杂成像数据时提供了一种高效、可靠的解决方案。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号