基于聚类人在环策略的机器学习方法提升循环肿瘤细胞检测效能研究

【字体: 时间:2025年06月01日 来源:Patterns 6.7

编辑推荐:

  本综述聚焦循环肿瘤细胞(CTCs)检测难题,指出现有 CellSearch 系统需繁琐人工评估。介绍一种结合自监督学习(SSL)与机器学习(ML)分类器的人在环(HiL)策略,通过潜空间聚类自动选取高不确定性样本,让专家精准标注,可提升分类准确性并减少耗时。

  癌症是全球主要死亡原因之一,转移是其致死的主要因素。循环肿瘤细胞(CTCs)作为液体活检的关键标志物,其计数可作为多种实体癌的预后指标。目前,CellSearch 系统是 CTC 检测和计数的金标准,但该系统常需对大量图像进行手动评估,尤其是在转移性病例中,因此亟需提高自动化程度。
本研究提出了一种基于聚类的人在环(HiL)策略,旨在解决液体活检数据中区分 CTCs 和非 CTCs 的挑战。该策略结合自监督深度学习和易于调整的传统机器学习分类器(支持向量机,SVM),通过有针对性的采样策略,引导人类专家从潜空间中的高不确定性聚类中标记有限的新训练样本,以迭代降低系统的不确定性并提高分类性能。

研究使用来自 90 名转移性乳腺癌患者的 CellSearch cartridge 图像数据,通过 StarDist 算法提取单细胞图像。首先利用 60 名患者的未标记数据对自监督图像编码器(DINO)进行训练,然后基于 20 名患者的数据定义初始训练池和测试集,使用 SVM 进行分类。通过潜空间聚类分析,识别出分类性能较低的区域(如簇 2),并在此区域进行有针对性的采样和标注。

实验分为模拟 HiL 场景和真实世界 HiL 实验。在模拟场景 1(有限全局数据)中,初始训练池仅包含 100 个标记样本,通过四次 HiL 循环,簇 2 的 F1 分数从 0.107 提升至 0.635,而随机采样仅提升至 0.260。在模拟场景 2(有限局部数据)中,针对簇 2 和簇 3 进行实验,结果表明聚类特定的 HiL 策略在 F1 分数上均优于随机采样。真实世界 HiL 实验中,专家在 5 分钟内从簇 2 中识别出 32 个 CTCs,使簇 2 的 F1 分数从 0.524 提升至 0.661,整体 F1 分数从 0.923 提升至 0.930。

将最终模型应用于额外的 10 名患者,与 CellSearch 系统相比,本研究提出的方法在识别出的 CTCs 数量相当的情况下,阳性预测值显著更高,需要分析的假阳性图像数量减少约 3.7 倍。此外,本研究还发现了一些 CellSearch 系统未检测到的 CTCs,这些 CTCs 具有较低的 DAPI 或 CK 信号强度。

尽管本研究证明了 HiL 策略的可行性和有效性,但仍存在一定局限性。例如,研究仅针对转移性乳腺癌患者的液体活检数据,未来需扩展至其他肿瘤类型(如前列腺癌、结肠癌)及 CTC 计数较低的患者数据。此外,本研究未涉及患者分子亚型的鉴定,未来可考虑结合更多标记物对 CTCs 进行表型特征分析。

总之,本研究提出的基于聚类的 HiL 策略通过结合自监督学习和机器学习分类器,有效减少了人工标注时间,提高了 CTC 检测的准确性,为临床应用中 CTC 检测的自动化和精准化提供了新的思路和方法。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号