对比学习驱动单细胞表型分析:无偏液体活检全玻片成像的新突破

《Scientific Reports》:Representation learning enables robust single cell phenotyping in whole slide liquid biopsy imaging

【字体: 时间:2025年10月22日 来源:Scientific Reports 3.9

编辑推荐:

  本研究针对液体活检中循环肿瘤相关细胞因稀有性、异质性和技术变异导致的识别难题,开发了基于对比学习的深度学习框架,通过无富集全玻片成像技术实现了92.64%的细胞表型分类准确率,显著提升了罕见细胞检测的稳健性和可扩展性,为癌症监测和生物标志物发现提供了创新解决方案。

  
在癌症诊疗领域,液体活检(LBx)正以其无创、可重复的优势革新着传统组织活检模式。通过分析血液等体液中的生物标志物,尤其是循环肿瘤细胞(CTCs),医生能够动态监测疾病进展、评估微小残留病灶。然而,这些"癌症哨兵"在血液中极其稀有——每百万个白细胞中不足一个,且表现出惊人的异质性和可塑性,包括上皮-间质转化(EMT)、血小板包裹CTCs、免疫样CTCs等多种表型。更棘手的是,当前主流的分析方法严重依赖人工设计的形态特征和专家目视复核,不仅易受技术变异影响,还存在主观偏差大、难以规模化等瓶颈。
针对这一挑战,南加州大学Amin Naghdloo等学者在《Scientific Reports》发表了一项创新研究,提出基于对比学习的深度学习框架,为无富集全玻片成像(WSI)数据中的单细胞表型分析提供了全新解决方案。该研究的核心突破在于摒弃了传统手工特征工程,通过自监督学习从细胞图像中直接提取稳健的特征表示,显著提升了罕见细胞识别的准确性和可重复性。
研究团队采用的关键技术方法包括:基于U-Net架构的细胞分割模型对全玻片图像进行精确细胞定位;对比学习框架(SimCLR)从25例患者样本的12.9万个单细胞图像中学习特征表示;通过成像质谱流式(IMC)技术构建包含10种细胞表型的金标准数据集;利用细胞系 spike-in 实验和乳腺癌患者样本分别验证模型在人工样本和真实临床场景中的性能。
线性分类确认学习特征在广泛细胞表型中的判别能力
研究团队通过成像质谱流式技术构建了包含10种细胞表型的金标准数据集,涵盖上皮CTCs、免疫样CTCs、血小板包裹CTCs、循环内皮细胞(CECs)等罕见细胞以及淋巴细胞、单核细胞、粒细胞等免疫细胞亚群。学习特征在表型分类任务中达到92.64%的准确率,微平均PR曲线下面积(AUPRC)为0.969。特别值得注意的是,大多数错误分类发生在免疫荧光图像差异细微的表型之间,如免疫样CTCs与血小板包裹CTCs的混淆,这与人类专家面临的挑战一致。
对比学习特征对技术变异具有稳健性
为验证特征稳健性,研究人员模拟了全玻片成像中常见的扫描仪相关变异:高斯模糊(模拟离焦成像)、像素尺寸变化和通道强度变异。结果显示,学习特征在所有扰动类型下均表现出比工程特征更低的敏感性,余弦距离显著减小。唯一例外是波形蛋白(VIM)通道的强度变异,这归因于训练集中VIM阳性细胞的相对低代表性。
学习特征增强WSI中罕见肿瘤相关细胞表型的异常值检测
在细胞系spike-in实验中,SK-BR-3(模拟上皮CTCs)和HPAEC(模拟循环内皮细胞)以1:10,000的比例掺入健康血液样本。三种异常检测算法(COPOD、ECOD、iForest)在学习特征空间中都表现出更高的目标细胞检出率。对于SK-BR-3细胞,ECOD算法结合学习特征获得0.954的ROC曲线下面积,显著优于工程特征的0.517。学习特征空间还表现出更均衡的表型检测能力,克服了工程特征对HPAEC细胞的检测偏好。
学习特征在数据不平衡情况下改善聚类性能
研究人员通过调节免疫细胞与罕见细胞的比例(0.5-10)系统评估聚类性能。在所有不平衡比例下,学习特征均显著优于工程特征。在最低不平衡比例时,K-means聚类结合学习特征获得0.74的完整性分数,而工程特征仅为0.61。Leiden社区检测也观察到类似优势,学习特征在NMI、同质性等指标上保持8%-14%的性能提升。
学习特征实现WSI中罕见细胞表型的准确计数
在细胞系spike-in实验中,分类器对SK-BR-3和HPAEC细胞的识别达到0.934和0.937的F1分数。在乳腺癌患者样本中,模型仅使用两个训练样本就在六个独立测试样本上实现CTCs和免疫样CTCs的平均F1分数分别为0.835和0.881,显著优于专家间一致性(Cohen's κ为0.78)。
研究结论表明,对比学习产生的单细胞特征表示能够促进稳健的表型分类、异常检测、细胞聚类和循环肿瘤相关细胞的监督计数,即使在严重的类不平衡和成像伪影下仍保持优异性能。该框架通过消除对实验富集和人工筛选的依赖,为循环罕见细胞分析提供了比当前实践更可扩展、可重复和高效的高通量管道。值得注意的是,这是首次将深度学习衍生特征应用于患者数据中多种CTC表型的同步计数,为癌症监测和生物标志物发现奠定了重要技术基础。
尽管当前研究存在训练样本量有限等局限性,但该工作无疑将深度表型分析定位为癌症监测和生物标志物发现的强大、可推广方法。未来通过整合多实例学习等先进技术,这一特征空间有望进一步推动患者层面生物标志物的发现,平行于组织病理学的最新进展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号