基于细胞形态组学(Cell Painting)的化合物致突变性计算预测模型研究

【字体: 时间:2025年08月05日 来源:Mutagenesis 4.3

编辑推荐:

  本研究通过整合Broad Institute和美国环保署(US-EPA)两大Cell Painting数据集,创新性地应用机器学习算法(XGBoost等)建立化合物致突变性预测模型。研究团队开发了基于细胞形态特征的预测方法,其性能优于传统QSAR工具(VEGA等),揭示了DNA/RNA和线粒体相关形态变化与致突变性的关联,为药物开发和化学品安全评估提供了高效可靠的体外预测新策略。

  

在药物开发和环境安全评估领域,化合物的致突变性检测一直是关键环节。传统的Ames试验虽然可靠,但存在耗时长、成本高等局限。与此同时,基于化学结构的定量构效关系(QSAR)预测模型往往难以捕捉复杂的生物活性。这种现状催生了对新型预测方法的迫切需求,而近年来兴起的细胞形态组学(Cell Painting)技术为这一领域带来了新的可能。

巴黎西岱大学(Université Paris Cité)联合日本烟草公司的科研团队在《Mutagenesis》发表了一项创新研究。研究人员首次将Cell Painting技术与机器学习相结合,开发出高效的致突变性预测模型。这项研究整合了来自Broad Institute的30,616种化合物和US-EPA的1,201种化合物的细胞形态数据,通过提取1,783个形态特征,建立了性能优异的预测系统。特别值得注意的是,研究提出的表型改变浓度(PAC)选择策略显著提升了模型准确性,为化学品风险评估提供了新思路。

研究采用了多项关键技术:1)基于Cell Painting的高通量细胞形态成像技术,使用U2OS人骨肉瘤细胞系;2)来自Broad Institute和US-EPA的两大独立数据集;3)机器学习算法(Random Forest、XGBoost和SVM)的比较优化;4)表型改变浓度(PAC)的剂量选择策略;5)GRIT评分系统用于数据质量控制。

材料与方法

研究团队创新性地整合了两个采用不同成像技术的Cell Painting数据集。Broad Institute数据集使用CellProfiler软件分析,包含406个384孔板的数据;而US-EPA数据集采用Opera Phenix系统采集,涵盖29个384孔板。通过严格的预处理流程(包括标准化、特征选择和球面化处理),研究人员确保了数据质量。特别设计的PAC选择策略有效解决了化合物最佳测试浓度确定的难题。

结果

在模型性能方面,XGBoost算法表现最为突出。对于Broad数据集,优化后的XGBoost模型平衡准确率达到0.91;US-EPA_d7/PAC数据集的最佳模型平衡准确率为0.79。这些结果显著优于传统QSAR工具,如VEGA和CompTox Dashboard。特征重要性分析显示,与DNA/RNA和线粒体相关的形态特征最具预测价值,如"Nuclei_Correlation_Correlation_Mito_RNA"和"ER_Ring_Texture_SER_Hole_2_px"等。

讨论与结论

这项研究开创性地证明了Cell Painting数据在致突变性预测中的应用价值。研究发现,致突变化合物会引起特定的细胞形态改变,特别是在细胞核和线粒体区域。这些发现与已知的致突变机制高度一致,如DNA损伤和氧化应激反应。研究还提出了PAC概念,证明化合物特异性剂量选择对预测准确性的关键影响。

该研究的创新点主要体现在三个方面:首先,首次将Cell Painting技术应用于致突变性预测;其次,开发了整合多源数据的机器学习框架;最后,提出了可解释的生物标志物特征集。这些成果不仅推动了计算毒理学的发展,也为实现动物实验的"3R原则"(替代、减少和优化)提供了技术支持。

值得注意的是,研究也揭示了当前技术的局限性,如不同实验室间Cell Painting数据的可比性问题。未来研究可通过标准化实验流程、开发深度学习模型等方式进一步提升预测能力。这项发表在《Mutagenesis》的工作为化学品安全评估开辟了新途径,其方法论框架也可拓展至其他毒性终点的预测研究。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号