基于可解释无监督学习的通用细胞形态分析框架MorphoGenie
《Nature Communications》:Generalizable morphological profiling of cells by interpretable unsupervised learning
【字体:
大
中
小
】
时间:2025年12月12日
来源:Nature Communications 15.7
编辑推荐:
本研究针对传统细胞形态分析依赖人工特征提取和深度学习模型可解释性差的问题,开发了名为MorphoGenie的无监督深度学习框架。该框架通过结合解耦表示学习与高保真图像重建,在10维潜空间实现了对单细胞形态的通用性分析,在肺癌细胞分类(准确率77%-94%)、药物反应评估和上皮-间质转化(EMT)轨迹推断等任务中表现出色,为跨模态细胞形态学研究提供了可解释的工具。
在细胞生物学研究领域,显微镜技术的飞速发展使得研究人员能够以前所未有的细节观察细胞的结构特征。然而,海量的细胞图像数据也给分析工作带来了巨大挑战。传统的细胞形态分析方法严重依赖人工特征提取,不仅耗时耗力,还容易引入人为偏见。虽然深度学习技术为自动特征提取提供了可能,但现有方法往往面临可解释性差、依赖标注数据等瓶颈。如何开发出既能自动学习细胞形态特征,又能让研究人员理解模型决策过程的计算方法,成为该领域亟待突破的关键问题。
近日,香港大学电子工程系的研究团队在《Nature Communications》上发表了一项创新研究,提出了名为MorphoGenie的无监督深度学习框架,为解决上述挑战提供了新的思路。该研究通过结合变分自编码器(VAE)和生成对抗网络(GAN)的优势,构建了一个既能高质量重建细胞图像,又能学习可解释特征表示的混合架构。
研究团队采用双阶段训练策略:首先使用FactorVAE学习解耦的潜表示,然后将这些表示传递给GAN进行高保真图像重建。这种方法既保证了潜空间的可解释性,又提高了图像重建质量。与现有方法相比,MorphoGenie在10维潜空间中实现了更好的特征解耦,同时在不同成像模态(如定量相位成像QPI和荧光成像)和细胞类型上展现出优异的泛化能力。
关键技术方法包括:基于FactorVAE和GAN的混合架构设计、潜空间遍历可视化技术、层次化特征解释热图分析方法,并应用UMAP降维可视化、StaVia轨迹推断等工具,在肺癌细胞系、原代T细胞、药物处理细胞等多种数据集上进行了验证。
研究团队首先评估了MorphoGenie在细胞图像重建方面的表现。如图2所示,与仅使用VAE的模型相比,MorphoGenie的混合架构能够更好地保留细胞亚结构细节,无论是在QPI图像还是荧光图像中都能实现高质量重建。通过结构相似性指数(SSIM)、均方误差(MSE)和Fréchet起始距离(FID)等指标的综合评估,MorphoGenie在多个数据集上的重建性能均优于现有的VQ-VAE和对抗自编码器(AAE)等先进模型。
MorphoGenie的核心创新在于其能够学习解耦的潜表示,即每个潜维度独立对应细胞形态的一个变化因素。通过潜空间遍历技术,研究人员可以直观观察单个维度变化对细胞形态的影响。研究团队设计了独特的解释热图方法,将潜维度与三个层次化的形态特征(整体特征、全局纹理和局部纹理)进行关联分析。
如图3所示,在肺癌细胞数据集中,维度0、3和7分别主要对应局部纹理、全局纹理和细胞大小/形状特征。类似的,在Cell-Painting药物筛选数据集中,纹理特征的变化尤为显著,其中维度1和5关注局部纹理,维度7强调全局纹理特征。这种层次化解耦分析为模型提供了生物学相关的解释基础。
在细胞类型/状态分类任务中,MorphoGenie展现出卓越性能。基于无标记QPI图像,该模型能够准确区分三种肺癌亚型(LUSC、LUAD和SCLC),分类准确率达到77%-94%。更重要的是,模型学习到的解耦表示与手动提取的生物学特征高度一致,如维度3(全局纹理)与强度偏度的变化模式相似。
在药物处理分析中,MorphoGenie能够识别不同细胞器对药物处理的特异性响应。研究发现,肌动蛋白和核仁的形态变化对糖皮质激素受体激动剂处理最为敏感(AUC:肌动蛋白0.87,核仁0.83),这为药物作用机制研究提供了新视角。
研究还验证了MorphoGenie在动态细胞过程分析中的潜力。在上皮-间质转化(EMT)研究中,模型成功识别出三种不同的EMT路径,这与先前研究中报道的两种路径有所不同。通过结合StaVia轨迹推断工具,研究发现维度3、5和4分别与细胞形状、全局纹理和局部纹理特征相关,这些特征的变化与EMT进程密切相关。
在细胞周期分析中,MorphoGenie基于无标记QPI图像准确预测了细胞周期进程,其中维度3与DNA含量的相关性最高(Pearson相关系数R=0.82)。这表明该维度捕获了与细胞周期进展相关的干质量密度变化。
MorphoGenie的一个重要优势在于其出色的泛化能力。如图6所示,在一个数据集上训练的模型能够直接应用于其他成像模态和细胞类型的分析任务。例如,在Cell-Painting数据集上训练的模型可以成功用于无标记QPI图像的肺癌细胞分类,以及细胞周期进程和EMT的轨迹推断。这种跨模态泛化能力使得模型成为一个可互操作的分析工具,促进了不同研究之间的比较和整合。
这项研究开发的MorphoGenie框架代表了细胞形态分析领域的重要进展。通过将解耦表示学习与高保真图像生成相结合,该框架不仅解决了传统方法的可解释性问题,还实现了跨成像模态的通用性分析。与手动特征提取方法(如CellProfiler)相比,MorphoGenie在保持分析性能的同时,显著提高了分析效率,并为发现新的细胞表型提供了可能。
研究的创新之处在于提出了一个系统的解释框架,将学习到的潜表示与层次化的形态特征相关联,使研究人员能够理解模型的决策依据。此外,模型在仅10维的潜空间中实现了丰富特征的表达,有效避免了"维度灾难"问题,为大规模细胞图像分析提供了可扩展的解决方案。
展望未来,MorphoGenie的应用潜力十分广阔。研究团队指出,该框架可进一步扩展至组织图像分析、三维细胞成像、批次效应校正等方向。特别是其高质量图像重建能力,为无标记成像向荧光图像的转换提供了可能,这将有助于在无标记条件下获得分子特异性信息。随着更多细胞类型和成像模态数据的加入,MorphoGenie有望成为细胞形态学研究的标准工具,推动数据驱动的细胞生物学发现。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号