编辑推荐:
为解决无标记细胞分类中数据不足、模型泛化性差等问题,研究人员构建 LIVECell-CLS 数据集(超 160 万张 8 种细胞图像),对比 16 种深度学习模型,引入秀丽隐杆线虫(C.elegans)连接组启发的张量网络(TN)模块。结果显示含局部归纳偏置模型更优,TN 变体提升性能,为无标记细胞分析提供新方法。
在生物医学成像领域,细胞分类作为一项关键技术,在疾病诊断、药物研发等场景中发挥着重要作用。传统的细胞分类依赖荧光染色技术,虽能提供分子特异性和增强对比度,但存在潜在生物响应改变、实验干扰以及适用范围受限等问题,如在黑色素瘤或胰腺癌检测中需基因操作和生物标志物,且荧光染料可能导致细胞死亡或活性氧积累。无标记细胞成像技术结合深度学习(DL)虽能规避染色弊端,但面临公开可用数据集匮乏、标准化基准缺失的挑战,现有数据集如 EVICAN 和 LIVECell 主要聚焦细胞分割而非分类,限制了深度神经网络(DNNs)在无标记单细胞分类任务中的应用。此外,不同模型在无标记细胞分类中的表现差异及如何提升模型的可解释性和性能,也是亟待解决的问题。
为攻克上述难题,相关研究人员开展了一系列研究。他们构建了 LIVECell-CLS 数据集,这是目前最大的无标记细胞分类基准数据集。基于该数据集,研究人员对 16 种基线深度学习模型(涵盖 ResNets、ViTs、MLP-Mixers 等架构)进行全面比较,并提出受秀丽隐杆线虫连接组启发的张量网络(TN)变体模型,以改进潜在表示。研究成果发表在《Computers in Biology and Medicine》。
研究中采用了以下关键技术方法:一是数据集构建,从 LIVECell 分割数据集提取单细胞图像,形成包含 8 种细胞系超 160 万张图像的 LIVECell-CLS 数据集,并进行数据预处理、标准化和数据增强;二是模型评估,对比 16 种基线深度学习模型及 TN 变体的性能;三是可解释性分析,运用 GradCAM、FullGradCAM、LIME 等可解释人工智能(XAI)技术及 UMAP 可视化分析模型提取的细胞特征。
分类性能比较
研究对多种模型在 LIVECell-CLS 数据集上的性能进行评估。结果显示,具有局部归纳偏置的模型如 CNN 和 Swin-Transformers 在平衡准确率和 F1 分数上普遍优于基于补丁的 ViTs 和 MLP-Mixers。例如,EfficientNetV2-S 在测试集上取得 89.72% 的准确率和 94.47% 的 F1 分数。这表明在细胞分类任务中,捕捉局部空间模式的能力至关重要,CNN 的结构更适合处理细胞形态的局部特征,而 ViTs 在数据有限时因缺乏局部归纳偏置表现受限。
连接组启发模型变体的影响
引入基于秀丽隐杆线虫连接组的 TN 变体后,各架构模型性能均有提升。以 Elegans-EfficientNetV2-M 为例,其测试准确率达 90.35%,F1 分数为 94.82%,较基线模型显著提高。即使是较小的模型如 Elegans-EfficientNetV2-B0 和 B1,也展现出优于标准对应模型的性能。对于 ViT 和 MLP-Mixer,其 Elegans 变体同样有显著改进,如 Elegans-ViT-B/32 准确率提升近 4 个百分点。这表明 TN 模块通过其独特的拓扑结构和非线性特性,有效提升了模型的特征表示能力,且参数增加较少,计算成本可控。
嵌入空间可视化
通过 UMAP 算法将模型的嵌入向量投影到 3D 空间进行可视化分析。结果显示,EfficientNet-based 模型的类分离效果优于 MLP-Mixer-based 模型,而 Elegans 变体进一步增强了类间的可分离性。例如,Elegans-EfficientNetV2-M 的嵌入空间中,各细胞类别的聚类更加紧凑且彼此区分明显,说明 TN 模块能够生成更具判别性的非线性数据表示,帮助模型更好地区分不同细胞类型。
XAI 方法比较
对比基线模型和 Elegans 变体的 XAI 地图发现,两者均聚焦于细胞的生物相关区域,如细胞核。Elegans 变体在特征定位上更为精准,其 FullGradCAM 和 LIME 地图更集中于细胞结构内,而基线模型在部分情况下会出现特征重要性分散的问题。例如,在正确分类的 A172 和 Huh-7 细胞中,Elegans 变体的热图更聚焦关键特征;在 SKOV-3 细胞分类中,基线模型因特征归因分散导致误分类,而 Elegans 变体则能准确聚焦细胞结构区域。这表明 Elegans 变体在特征识别和利用上更具优势,提升了模型的可解释性和分类准确性。
模型性能影响因素及 TN 变体优势
通过消融研究发现,TN 变体的性能提升并非源于参数数量增加,而是其独特的拓扑结构和非线性特性。与 MLP 增强变体相比,在参数相当的情况下,Elegans 变体表现更优,如 Elegans-ResNet18 准确率高于 ResNet18+Wide-MLP 和 Deep-MLP。此外,基于秀丽隐杆线虫连接组的 TN 变体在性能和计算效率上优于随机图 - based TNs,其稀疏图结构减少了计算开销,同时保持了准确性。
这项研究构建了目前最大的无标记细胞分类数据集 LIVECell-CLS,系统评估了多种深度学习模型在该任务中的表现,并创新性地引入连接组启发的 TN 模块,为无标记细胞分类提供了新的有效方法。研究表明,CNN 类模型在细胞分类中具有优势,TN 模块能够有效提升模型性能和特征表示能力,且 XAI 分析为模型决策提供了可解释性支持。这些成果不仅推动了无标记细胞分析技术的发展,也为生物医学成像领域中深度学习模型的优化和应用提供了新方向,有望在疾病诊断、药物筛选等领域发挥重要作用,助力精准医学的发展。