基于蛋白表达模式的细胞术数据稳健双联体检测工具Cleanet的开发与应用

【字体: 时间:2025年10月11日 来源:Cytometry Part A 2.1

编辑推荐:

  本文综述了Cleanet这一创新性算法在流式与质谱细胞术数据中实现双联体(doublet)自动检测的原理与效能。该方法突破传统二维设门的局限,利用多维度蛋白表达模式(如CD45、DNA intercalator等标志物),通过模拟双联体生成与近邻分类策略,显著提升对同型(homotypic)与异型(heterotypic)双联体的识别准确性,并经成像细胞术(ImageStream、Discover A8)验证,为大规模免疫细胞研究(如细胞互作、肿瘤微环境分析)提供可靠的数据清洗方案。

  

2.1 方法概述

Cleanet通过模拟双联体事件并分析其蛋白表达模式实现检测。其核心步骤包括:从原始数据中随机抽样N/2对细胞事件,将每对细胞的蛋白表达值相加生成模拟双联体;将模拟双联体与原始数据合并形成增强数据集,经双曲正弦变换(arcsinh transform,默认质谱细胞术cofactor=5,流式细胞术cofactor=500)后,使用分层可导航小世界算法(Hierarchical Navigable Small Worlds)计算近邻;若某原始事件的15个最近邻中有超过5个为模拟双联体,则判定其为真实双联体。
与单细胞转录组双联体检测工具DoubletFinder(采用表达值取平均的策略)不同,Cleanet假设细胞术抗体探针饱和靶蛋白,因此双联体的信号强度应为组成细胞之和(图1C)。这一模型更符合细胞术数据特性,且能有效识别同型双联体(传统方法难以区分)。Cleanet还提供内部置信度指标,即模拟双联体中被正确分类的比例,用于评估算法适用性。

2.2 质谱细胞术数据验证与细胞比例稳定性提升

在包含169个全血样本的质谱细胞术数据中,Cleanet与人工设门结果高度一致。传统方法依赖DNA intercalator(如191Ir、193Ir)通道的二维密度图识别双联体,但存在局限性:例如嗜酸性粒细胞(eosinophil)因高DNA含量易被误判为双联体(图2A)。Cleanet通过多维度蛋白表达(如CD45、CD66b、CD294)分析,更准确地将这些事件判定为单细胞(图2B,D)。
在19个技术重复样本中,Cleanet去除双联体后嗜酸性粒细胞比例变异系数(CV)显著降低(图2C),证明其能减少技术误差带来的变异。算法在低事件数(≥500)或少标志物(≥6个)条件下仍保持稳健(灵敏度>70%,特异性>90%),且无需DNA intercalator通道亦可运行(图2E)。实验还显示,当样本中碎片(debris)比例超过20%时,Cleanet性能下降,但预处理去除碎片后可恢复准确性(图2F)。

2.3 流式细胞术数据应用与双联体组成分类

在16色流式细胞术PBMC数据中,Cleanet仅使用荧光通道(如CD3、CD14),与基于散射光(FSC-A/FSC-H)的自动化工具PeacoQC结果高度一致(图3A)。随标志物数量减少,性能逐步下降,但降解趋势平缓(图3B),表明多标志物共同提供冗余信息。
Cleanet可进一步扩展至双联体组成分类:若用户提供单细胞的细胞类型标签(如通过FastPhenograph聚类),算法可判定双联体为同型(如T细胞-T细胞)或异型(如单核细胞-T细胞)。观察到的双联体类型频率与基于细胞丰度的期望频率高度相关(图3C),且真实双联体与模拟双联体的蛋白表达分布高度相似(图3D),验证了模拟机制的可靠性。

2.4 成像细胞术验证与相互作用检测

使用ImageStream数据(含Raji和THP1细胞系混合样本),Cleanet基于5个荧光通道(CellTrace黄/紫、亮场、活性染料)检测双联体,结果与形态学通道的人工设门相近(图4A,B)。经Rituximab处理后,抗CD20抗体介导细胞相互作用,Cleanet检测到Raji-THP1异型双联体比例显著高于预期(图4D),证明其能捕捉生物学互作。
以人工标注图像为金标准,Cleanet的受试者工作特征曲线下面积(ROC AUC)与人工设门方法相当(图4E,F)。在争议事件中(如Cleanet判为双联体而设门判为单细胞),图像显示部分事件实含多个细胞碎片(图4G),提示Cleanet可能捕获了传统方法遗漏的复杂事件。

2.5 光谱成像细胞术数据评估

在FACSDiscover A8采集的骨髓(AML患者)和外周血样本中,Cleanet使用26个荧光通道检测双联体,其预测结果在散射光(FSC-A/FSC-H)和成像通道(偏心率、径向矩)二维图上均与传统双联体分布区域重叠(图5A,B)。以图像标注为基准,成像通道设门(径向矩阈值)性能最优(AUC≈0.99),但Cleanet与PeacoQC(AUC≈0.85–0.95)表现接近(图5C,D),且在复杂样本(骨髓)中仍保持稳定。

3 方法细节

数据预处理包括碎片去除(质谱细胞术基于蛋白表达距离阈值,流式细胞术基于FSC-A+SSC-A总和)。Cleanet核心参数(近邻数、判定阈值)可调,以适配不同数据特性。算法独立应用于每个文件,避免样本间批次效应影响。

4 讨论

Cleanet是首款基于多维度蛋白表达的细胞术双联体检测方法,兼顾自动化与鲁棒性,尤其适用于标志物信号质量不均或传统通道(DNA intercalator、散射光)表现不佳的场景。其双联体分类功能为研究细胞互作(如免疫突触、吞噬作用)提供新思路。局限包括对高碎片样本敏感、计算耗时较长,但预处理和硬件优化可缓解。Cleanet有望推动大规模细胞术数据分析的标准化与可扩展性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号