细胞环境依赖的无标记显微镜图像虚拟细胞器定位模型CELTIC提升跨分布数据泛化能力
《Nature Methods》:Cell context-dependent in silico organelle localization in label-free microscopy images
【字体:
大
中
小
】
时间:2025年12月20日
来源:Nature Methods 32.1
编辑推荐:
本研究针对无标记显微镜图像虚拟标记(in silico labeling)在罕见细胞群体(如分裂期细胞、集落边缘细胞)中因细胞内结构变化导致预测性能下降的问题,开发了名为CELTIC的上下文依赖模型。通过将细胞有丝分裂阶段、位置、形状等生物学背景信息以表格数据形式嵌入U-Net网络瓶颈层,CELTIC显著提升了内质网、核膜等细胞器在罕见群体中的定位预测精度,并实现了基于上下文操控的细胞器动态生成。该研究为构建泛化性强的虚拟标记基础模型提供了新思路,发表于《Nature Methods》。
细胞是生命活动的基本单位,其功能高度依赖于细胞内各种细胞器(organelle)的精细分工与协同运作。理解细胞器在生理过程或外界扰动下如何动态调整空间分布,是细胞生物学领域的核心问题之一。传统荧光显微成像技术需对特定细胞器进行标记,但多重标记存在技术限制且可能干扰细胞正常生理状态。近年来兴起的虚拟标记(in silico labeling)技术通过深度学习模型,将无标记的透射光显微镜图像转换为预测的荧光图像,为长时程、多细胞器活细胞成像提供了新途径。然而,细胞在不同类型、状态或微环境下会发生显著的细胞内结构重组,导致其光学特性改变,使得训练好的模型在面对分布外(out-of-distribution)数据时预测准确性大幅降低,严重制约了该技术的泛化应用。
为解决这一挑战,本研究提出了一种名为CELTIC(Cell in silico labeling using Tabular Input Context)的新型上下文依赖虚拟标记模型。研究人员发现,对于训练数据中代表性不足的罕见细胞群体,如处于有丝分裂(mitosis)不同阶段的细胞、位于细胞集落边缘的细胞、体积较小的细胞或处于稀疏微环境中的细胞,标准U-Net模型的虚拟标记性能显著下降。以微管(microtubules)为例,在细胞分裂期,微管会重排形成纺锤体,这与间期(interphase)的网状结构截然不同,导致模型难以从变化的无标记图像中准确预测其荧光图像。
CELTIC模型的核心创新在于将细胞背景信息明确整合到虚拟标记模型中。研究团队为每个细胞定义了五类上下文特征,包括有丝分裂阶段(mitotic stage,来自数据集元数据)、在集落中的位置(location,边缘或内部)、经典形状特征(classic shape,如体积、宽度等)、机器学习衍生的形状特征(machine learning shape,基于自编码器对细胞分割掩模的编码聚类)以及局部邻居密度(neighborhood density)。这些特征被拼接成一个16维的上下文向量。在模型架构上,CELTIC基于U-Net,并在其最深的瓶颈层(bottleneck layer)引入了动态仿射特征图变换(Dynamic Affine Feature Map Transform, DAFT)模块。DAFT利用上下文向量来对瓶颈层的图像特征图进行仿射变换(缩放和平移),从而引导网络学习融合图像细节和上下文信息的统一表征。
为验证CELTIC的有效性,研究使用了艾伦细胞科学研究所(Allen Institute for Cell Science, AICS)的WTC-11人诱导多能干细胞(hiPS cell)单细胞图像数据集v1。该数据集包含三维旋转盘共聚焦显微镜图像,每个视野(Field of View, FOV)均有无标记的明场(brightfield)图像和特定EGFP标记的细胞器荧光图像,并提供了细胞分割掩模以及关于有丝分裂阶段、位置等的元数据。研究聚焦于核膜(lamin B1)、肌动蛋白丝(actin filaments)、微管(alpha-tubulin)、内质网(sec61B)、高尔基体(STGAL1)和线粒体(Tom20)这六种细胞器。
研究基于AICS WTC-11 hiPS细胞单细胞图像数据集,从中提取单细胞图像并计算五类上下文特征。虚拟标记模型采用U-Net架构,并通过DAFT模块融合图像与表格化上下文数据。性能评估采用像素级皮尔逊相关系数(PCC),并通过置换检验(permutation test)等统计方法验证显著性。应用性评估包括预测有丝分裂细胞纺锤体轴心(spindle axis)的位置和方向误差。还训练了统一的多细胞器CELTIC模型,并将细胞器类型作为上下文。
与单细胞U-Net模型相比,CELTIC在预测分裂细胞内质网和核膜方面表现更好。虽然两种模型在预测微管纺锤体方面都表现不佳,但CELTIC能够预测有丝分裂期间从纺锤体极辐射出的两个星体阵列。量化分析表明,细胞上下文改善了所有细胞器在有丝分裂细胞中的预测,对微管的贡献最为显著。同样,上下文的加入也改善了位于集落边缘、体积较小或处于稀疏邻居密度环境中的细胞对于大多数细胞器的虚拟标记。消融研究(ablation study)显示,有丝分裂阶段上下文对分裂细胞的虚拟标记贡献最大,而边缘上下文主要影响位于集落外围的细胞。对上下文推断错误的敏感性分析表明,高质量的上下文提取对于模型性能至关重要。
作为应用性下游分析示例,研究评估了从无标记图像预测有丝分裂过程中纺锤体轴心位置和方向的能力。使用CELTIC(带有有丝分裂状态上下文)的微管模型,对一组前期-中期(prometaphase-metaphase)细胞进行预测,并通过阈值分割和计算两个主要轮廓的质心连线来确定预测的纺锤体轴。与无上下文模型相比,CELTIC将纺锤体轴心预测的位置误差中位数降低了超过2倍,方向误差中位数降低了超过1.5倍,且置换检验证实预测误差并非偶然。
研究还训练了一个统一的CELTIC模型,将细胞器类型作为上下文(六维one-hot向量)。该统一模型在六种细胞器上的平均PCC达到了0.700,超过了单一细胞器模型的平均PCC(0.683),表明跨细胞器共享表征可以超越单一细胞器模型,并减少数据和计算资源需求。即使将训练迭代次数减少到与训练单一细胞器模型相同,统一模型仍能达到接近的性能,凸显了通过将元数据作为上下文来协调不同数据集的潜力。
CELTIC的生成能力允许对同一无标记图像,通过手动操纵其上下文向量,生成在不同上下文下的虚拟标记图像序列。例如,将间期细胞的上下文操纵为前期-中期上下文后,CELTIC生成的整合虚拟标记图像显示核膜部分解体、肌动蛋白丝在细胞质中分散并重组在细胞赤道板形成环状、微管重排形成对齐的纺锤体,这些变化与已知的生物学现象一致。通过改变细胞位置上下文(从内部到边缘),可诱导细胞质结构的显著极化。系统性分析表明,改变有丝分裂阶段上下文对生成的图像空间影响最大,特别是对微管、核膜和高尔基体。研究还演示了利用上下文依赖生成能力,仅使用间期细胞生成“合成”的有丝分裂细胞图像,来训练一个有丝分裂分类器,该分类器在独立测试集上取得了高AUC分数,证明了生成图像的有效性。
本研究揭示了虚拟标记技术在处理罕见细胞上下文时面临的泛化挑战,并提出了CELTIC这一解决方案。通过明确注入细胞上下文信息,CELTIC增强了模型对分布外数据的适应性,特别是在与上下文相关的细胞器定位模式预测方面。更重要的是,CELTIC具备上下文依赖的生成能力,能够通过操纵上下文向量模拟细胞器在状态转换过程中的动态变化,为研究细胞内组织随生理过程或环境变化的规律提供了新的“假设生成”工具。研究表明,细胞上下文与细胞内组织结构之间存在紧密联系。
这项工作强调了在虚拟标记模型中整合上下文信息的重要性,不仅限于本研究涉及的内在细胞状态(如有丝分裂阶段、位置),未来还可扩展至细胞类型、扰动、疾病状态、成像参数等外在上下文。这种上下文依赖的虚拟标记有潜力通过协调多来源数据集,成为训练通用虚拟标记“基础模型”(foundation models)的推动者。然而,在实际应用中,许多内在上下文需要从原始图像中计算提取,会引入误差,影响模型性能。因此,未来研究需致力于提高上下文提取的准确性,并进一步验证数据协调在实际构建基础模型中的可行性。CELTIC所采用的显式上下文注入方法,相较于弱监督表征学习,具有可控制上下文生成轨迹和避免组合上下文空间指数级增长的优势,为深入探索细胞器互作网络在细胞功能调控中的作用开辟了新途径。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号