基于自监督异常检测的高内涵细胞表型分析新方法:增强可重复性与机制解读
《Cell Systems》:Anomaly detection for high-content image-based phenotypic cell profiling
【字体:
大
中
小
】
时间:2025年10月30日
来源:Cell Systems 7.7
编辑推荐:
本研究针对高内涵细胞表型分析中传统特征表示无法捕捉复杂形态依赖关系的瓶颈,提出了一种基于自监督异常检测的表征方法。通过利用对照组数据构建“分布内”自编码器,该方法将细胞形态特征间的非线性依赖关系编码为异常表征,显著提升了表型分析的可重复性(如CDRP-bio数据集提升1.54倍)和机制分类(MoA)准确性(F1分数提升27%),同时降低批次效应并保留生物学可解释性。该技术为药物筛选和疾病机制研究提供了更可靠的量化工具。
在生命科学领域,细胞形态的细微变化往往隐藏着疾病机制或药物作用的关键线索。高内涵成像技术通过自动化显微镜和图像分析,能够捕捉细胞在扰动下的表型响应,例如细胞形状、细胞器分布等特征的改变。其中,Cell Painting assay作为代表性方法,利用多通道荧光染色标记细胞的不同结构,再通过CellProfiler等软件提取上千个形态特征,形成细胞的“表型图谱”。然而,传统分析方法存在两大痛点:一是依赖特征独立性的假设,忽略了细胞内部结构间复杂的非线性关联;二是深度学习等新兴表征方法虽能提升区分度,却因“黑箱”特性难以生物学解读,且可能因过度依赖实验标签而扭曲表型相似性。
为解决这些问题,研究人员在《Cell Systems》上提出了一种创新策略:将表型分析重构为异常检测问题。其核心思想是,利用实验中大量重复的对照组数据,训练自编码器学习正常细胞形态的“分布内”模式,再通过计算处理样本的重建误差,量化其偏离正常模式的程度。这种方法不仅无需依赖实验标签,还能通过特征级重建误差直接定位异常依赖关系,兼顾了深度学习的表达能力与手工特征的可解释性。
研究团队通过四个公共Cell Painting数据集(CDRP-bio、LINCS、LUAD、TAORF)系统评估了该方法的有效性。关键技术包括:基于CellProfiler的特征提取与标准化、自编码器构建(编码器3层全连接网络压缩至32维潜空间)、重建误差的Z-score标准化、以及基于SHAP的异常特征归因分析。所有数据均来自Cell Painting Gallery,未引入新实验材料。
在三个数据集中,异常表征的“可重复百分比”评分显著高于传统CellProfiler表征(如CDRP-bio从11.3%提升至17.41%)。其随机样本间相关性更接近零,表明对批次效应敏感性更低。进一步分析发现,重建误差高的特征比例与可重复性正相关,说明强表型扰动更易被异常检测捕获。
在MoA分类任务中,异常表征的加权F1分数(LR模型)在CDRP-bio和LINCS数据集分别达到0.301和0.212,优于CellProfiler基线(0.238和0.183)。例如,ATP酶抑制剂类别的分类性能提升显著(ΔF1=0.305)。通过联合异常表征与L1000基因表达数据,可进一步扩大可分析化合物和MoA类别范围。
通过轮廓宽度(ASW)量化分析,异常表征在控制板间差异(batch-ASW)和捕捉重复样本相似性(bio-ASW)上均优于基线,证实其能同时抑制技术变异并突出生物学差异。
以ATP酶抑制剂为例,通过自编码器异常SHAP分析,发现“Cytoplasm_Granularity_4_AGP”特征的重建误差与相邻粒度特征相关,这与已知空泡ATP酶缺陷导致的表型一致。另一特征“Cells_AreaShape_FormFactor”的异常则由细胞间距特征的变化驱动,揭示了形态与微环境关联的破坏。
该研究通过自监督异常检测框架,实现了细胞表型分析中依赖关系建模与可解释性的平衡。异常表征不仅补充了传统方法的不足,还因无需实验先验标签而更贴合生物学实际相似性。其通用性支持拓展至活细胞成像、空间蛋白质组学等场景,尽管直接从原始图像学习可能进一步规避分割误差,但会牺牲部分可解释性。未来,该方法有望成为药物发现和疾病机制解析中表型量化的重要工具,尤其适用于需要高可靠性及机制洞察的筛选场景。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号