PhenoProfiler:推进基于图像的表型学习以加速药物发现

《Nature Communications》:PhenoProfiler: advancing phenotypic learning for image-based drug discovery

【字体: 时间:2025年12月15日 来源:Nature Communications 15.7

编辑推荐:

  在图像药物发现领域,准确捕捉细胞对化学扰动的表型响应至关重要。为解决现有方法流程复杂、计算量大且易出错的问题,研究人员开发了PhenoProfiler——一种高效的端到端深度学习框架,可直接将高内涵多通道细胞图像转化为低维定量表征。研究显示,PhenoProfiler在近40万张高内涵图像上的评估中,准确性和鲁棒性均优于现有方法达20%,其表型校正策略能有效放大治疗诱导的变异信号。该工具为高通量表型分析建立了可扩展、可解释的通用框架,推动了AI驱动的药物筛选和精准治疗发展。

  
在当今药物研发领域,基于图像的筛选技术正发挥着越来越重要的作用。特别是Cell Painting技术,它通过多种荧光染料标记不同细胞器和细胞成分,生成多通道图像,能够全面捕捉药物处理引起的细胞表型变化。这些高维图像蕴含丰富信息,但如何从中提取有意义的生物学见解却面临巨大挑战。
目前,研究人员主要依赖像CellProfiler、DeepProfiler这样的工具进行细胞形态分析。然而,这些方法存在明显局限:它们通常需要复杂的多步骤流程,包括图像分割、子图像提取和特征整合,不仅计算成本高,还容易引入误差。更关键的是,这些方法大多依赖药物处理条件作为分类标签,难以捕捉细胞反应的细微变化,限制了模型的泛化能力。这些瓶颈严重制约了图像药物发现的效率和准确性。
为了突破这些限制,澳门大学、北京工业大学、佛罗里达大学等机构的研究团队在《Nature Communications》上发表了题为"PhenoProfiler: advancing phenotypic learning for image-based drug discovery"的研究成果,开发了一个创新的端到端深度学习框架——PhenoProfiler。
关键技术方法
研究团队构建了包含梯度编码器、Transformer编码器和多目标学习模块的端到端框架。梯度编码器基于差分卷积增强细胞边缘信息;Transformer编码器捕获长距离依赖关系;多目标学习模块整合分类、回归和对比学习目标。模型在七个公共数据集(包括BBBC022、CDRP-BIO-BBBC036等)的近40万张多通道图像上进行训练和评估,采用留出扰动、留出板子和留出数据集等多种验证策略,使用富集倍数和平均精度均值等指标进行性能评估。
研究结果
PhenoProfiler模型概述
PhenoProfiler的创新之处在于其端到端的设计理念(图1b)。与需要复杂预处理流程的传统方法不同,它能够直接将原始多通道细胞图像转换为低维表征。该模型包含三个核心组件:梯度编码器通过差分卷积增强细胞边缘信息,提高形态学特征的清晰度和对比度;Transformer编码器利用多头自注意力机制捕获图像中的长程依赖关系;多目标学习模块则巧妙整合了分类、回归和对比学习三种目标,共同构建统一而稳健的特征空间。在推理阶段(图1c),模型还引入了表型校正策略,通过对比处理组和对照组来放大治疗相关的生物学信号。
生物匹配任务中的优异表现
在包含23万张图像、4285种处理的大规模评估中,PhenoProfiler在三个基准数据集上均显著优于现有方法(图2a)。在富集倍数指标上,相比次优方法分别提升了23.8%、2.1%和12.9%;在平均精度均值指标上,提升幅度达到3.3%-7.3%。不同召回率水平下的分析进一步证实了其优势(图2b)。消融实验揭示了各模块的重要性(图2c):移除回归学习组件导致性能下降12.0%-12.7%,同时移除回归和分类学习则使性能降低28.0%和20.6%。研究还发现,多目标学习的平衡设计至关重要,单纯降低分类损失并不总能提升性能(图2d)。
强大的泛化能力和适用性
在更具挑战性的留出板子和留出数据集验证中,PhenoProfiler展现出卓越的泛化能力(图3a-b)。在分布外评估中,模型在U2OS和A549两种细胞系的不同数据集上均保持稳定性能,平均优于次优方法45.8%(富集倍数)和27.3%(平均精度均值)(图3c)。这表明PhenoProfiler学到的表征具有强大的跨数据集、跨实验条件的迁移能力。
有效消除批效应的稳健表型表征
技术因素导致的批效应是表型分析中的常见问题。如图4所示,DeepProfiler提取的特征在不同板子间存在明显分离(逆中位数绝对偏差=0.326),表明存在显著的板间偏差。即使经过额外批校正,特征整合度仍不理想(逆中位数绝对偏差=0.458)。而PhenoProfiler学习到的特征呈现高度整合的分布(逆中位数绝对偏差=0.603),证明其能够直接从原始数据中学习谐调的表征,无需后续校正步骤。
表型校正策略提升生物匹配效果
PhenoProfiler特有的表型校正策略通过利用同一板内对照组和处理组的差异来优化图像表征(图5a)。消融实验显示,该策略能持续提升富集倍数指标,同时对平均精度均值影响甚微(图5b)。超参数分析表明,当控制组权重系数α≥0.7时,富集倍数达到最大(图5c)。特征聚集度量化显示,应用表型校正策略后,逆中位数绝对偏差指标在三数据集上分别提升51.5%、69.7%和11.6%(图5d),证明其能有效促进不同板间特征的整合。
有效捕捉治疗效应的表征
可视化分析进一步证实了PhenoProfiler的生物学意义。在化合物处理数据集中,具有相同作用机制的药物形成明显聚类;在基因过表达数据集中, treatments按MAPK、PI3K/AKT等信号通路自然分组(图6a-b)。对cpg0004-LINCS数据集的深入分析显示,所有药物处理组相对DMSO对照组均出现显著特征偏移,同类药物重复间高度一致,不同类别药物间分离清晰(图6c)。更重要的是,PhenoProfiler捕获的特征变化与已知药理机制高度吻合(图6d),如准确检测到乙酰达铵处理引起的细胞紧实度增加和偏心度降低,这与该药通过毒蕈碱受体阻断抑制囊泡运输的已知机制一致。
研究结论与意义
这项研究开发的PhenoProfiler框架,在表型表征学习方面设立了新的标杆。其端到端的设计避免了复杂预处理流程,多目标学习架构有效应对了细胞反应异质性挑战,而表型校正策略则强化了生物学相关信号的提取。在近40万张图像上的系统评估证明,该工具在准确性、鲁棒性和泛化能力方面均优于现有方法。
值得注意的是,PhenoProfiler在保持高性能的同时,还展现出良好的计算效率,为非端到端方法提供了有竞争力的替代方案。其能够有效消除批效应、识别通路特异性特征、捕捉药物诱导的表型扰动,为高通量药物筛选提供了强大工具。
未来,通过探索多目标间的协同效应、整合大型生物医学语言模型、结合遗传谱和化学结构等多模态数据,有望进一步提升框架性能。PhenoProfiler的成功开发不仅推进了图像药物发现的技术边界,为系统性理解细胞应答提供了新视角,也为整合多模态数据、探索药物作用机制和新靶点发现开辟了新途径。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号