《Biochemical Journal》:An expanded role for single-cell chemical genomics profiling in drug discovery
编辑推荐:
本综述系统阐述了单细胞化学基因组学技术如何革新药物发现流程。文章详细介绍了从传统群体平均方法到现代单细胞分辨率技术的演进,重点讨论了纳米孔、微滴和组合索引等高通量单细胞转录组测序技术,以及细胞哈希(cellular hashing)和多组学整合方法。作者强调了机器学习模型(如变分自编码器和因果推断框架)在解析药物扰动响应、预测组合疗法效果方面的前沿应用,并展望了该技术在靶点识别、生物标志物发现和临床前优先排序中的转化潜力。
群体平均化学基因组学方法
在下一代测序技术快速发展之前,DNA微阵列首次实现了基因表达的高通量并行检测。Marton等人首次提出了化学“特征”的概念,在酿酒酵母中证明了钙调神经磷酸酶信号抑制诱导的表达特征以及脱靶GCN4调控的转录响应。随后,Hughes等人建立了特征库方法,发现参与相同通路的基因缺失会产生更相似的特征。这一理念被应用于连接图谱(Connectivity Map, CMap),作为美国国立卫生研究院(NIH)图书馆集成网络细胞特征(LINCS)计划的一部分。CMap最初收集了4个人类癌细胞系中453个扰动诱导的表达特征,后续研究采用L1000检测法,通过测量978个标志性转录本来代表全转录组。最新版本的CMap包含来自超过80,000种扰动(33,609种化合物;9,288个基因)的116万个重复合并特征。尽管L1000成本低、规模大,但仅能直接测量约8.6%的基因,其余需通过计算推断,这可能导致37%的化合物无法与其预期靶点关联。
随着测序成本降低,PLATE-seq和DRUG-seq等批量RNA测序方法实现了全转录组的无偏测量。PLATE-seq和DRUG-seq分别收集了184种和433种化学物质的特征,证明了在全转录组水平研究药物分子响应的可行性。此外,表观基因组学和蛋白质组学检测也提供了正交的基因组学测量。例如,基于蛋白质的药物特征研究揭示了组蛋白去乙酰化酶(HDAC)抑制剂、JNK抑制剂、肾上腺素受体拮抗剂、CDK抑制剂和BRAF抑制剂的作用机制,阐明了药物-蛋白质相互作用、蛋白质稳定性和复合物动态。
群体平均方法通过收集和比较扰动诱导的基因表达特征,成功注释了未表征基因的功能,按作用机制对化合物进行分类,并识别了脱靶效应。然而,这些方法对细胞异质性不敏感,可能掩盖临床相关细胞亚群的响应,导致辛普森悖论(Simpson’s paradox),即群体趋势与亚群趋势相反。
单细胞分辨率的化学基因组学
单细胞组学技术通过识别疾病病理的细胞基础,助力治疗策略的优先排序。在单细胞化学基因组学中,系统性的药物分子筛选有望加速药物发现流程。例如,在癌症研究中,单细胞转录组学揭示了PARP抑制剂奥拉帕尼(olaparib)在BRCA2缺陷卵巢癌细胞系中的耐药机制,并通过联合靶向谷氨酰胺酶1(CB-839)增强疗效。在神经退行性疾病中,单细胞RNA测序(scRNA-seq)定义了阿尔茨海默病中Aβ和tau病理对小胶质细胞亚型的调控,以及神经退行性病变中的性别特异性基因表达变化。
适用于化学基因组学分析的单细胞基因组学方法主要包括纳米孔、微滴微流体和组合索引/分裂池技术。纳米孔技术通过重力沉降将单个细胞隔离到纳米孔阵列中,捕获效率高,适合低细胞数样本,但通量受限于孔数。微滴微流体技术是最常用的高通量单细胞RNA测序方法,通过将细胞与条形码微珠共包裹在纳升级液滴中,唯一标记每个细胞的转录组。商业化平台(如10X Genomics的Chromium系统)每个样本可捕获多达10,000–20,000个细胞。组合索引技术通过多轮条形码标记唯一标记细胞或细胞核,通量随索引轮数迅速扩展,可实现数百万细胞的单次实验分析。sci-Plex管道利用组合索引进行多重单细胞化学转录组学筛选,在数千种细胞模型、药物和剂量组合中识别了组蛋白去乙酰化酶抑制的代谢基础,并按诱导分子程序的能力对EGFR抑制剂进行分类。
多模态分析技术进一步扩展了单细胞化学基因组学的洞察力。CITE-seq和Phospho-seq同时分析转录组和表面或细胞内蛋白质;SHARE-seq和sci-CAR同步检测染色质可及性和基因表达;PHAGE-ATAC通过scATAC-seq分析染色质可及性并行进行噬菌体多重蛋白测量;NEAT-seq通过结合大肠杆菌ssDNA结合蛋白,同时分析核内蛋白、染色质可及性和基因表达。单细胞代谢调控组分析(scMEP)定义了人类细胞毒性T细胞的代谢状态。
细胞哈希技术通过将多个样本(如暴露于不同化合物库的细胞模型)合并处理,提高通量、减少批次效应并降低成本。MULTI-seq使用脂质和胆固醇偶联寡核苷酸标记活细胞和细胞核;sci-Plex方法通过将单链DNA寡核苷酸条形码附着到透化细胞上,实现低成本多重化;Demuxlet和Mix-seq利用样本特异性单核苷酸多态性(SNP)解混细胞类型混合物;CellTag索引通过慢病毒递送随机分子索引跟踪细胞谱系。
将单细胞遗传筛选纳入化学基因组学管道,可系统解析基因对药物诱导分子变化的因果作用。Perturb-seq、CRISP-seq、CROP-seq和MOSAIC-seq将CRISPR遗传扰动与单细胞转录组读数结合,解析基因活性对基因表达网络的调控。sci-Plex-GxE和Perturb-sci-Kinetics框架将单细胞遗传筛选与高通量组合索引RNA测序结合,分别识别药物诱导转录下游的耐药程序调控和RNA合成动力学。
从高度多重化学基因组学筛选中获取洞察的计算方法
机器学习方法通过变分自编码器(VAE)和分层贝叶斯建模,学习单细胞转录组中的扰动响应模式。关键挑战包括处理处理前后不同细胞测量的非配对数据分布,以及预测未见条件(如未测试剂量、治疗时间、细胞类型或药物组合)的转录效应。
CPA(组合扰动自编码器)使用对抗损失将条件编码为独立协变量,通过潜在因子和协变量的线性组合预测反事实表达谱。scVIDR使用对数线性插值预测细胞类型特异性、剂量依赖的基因表达变化。MrVI(多分辨率变分推断)建模嵌套多条件实验中的异质转录响应,计算转录组相似性并预测反事实差异表达。DRVI采用加性解码器和池化函数学习解缠结的潜在表示。sVAE+和FCR(因子化因果表示学习)使用稀疏机制移位建模和因果表示学习,区分处理和协变量特异性效应。scCADE通过对比学习和注意力机制解耦细胞背景与扰动响应。LEMUR通过矩阵分解将细胞表型映射到连续潜在空间。OntoVAE将生物本体整合到潜在空间表示中,直接解释模拟的药物或基因转录效应。scCAPE使用对抗学习区分扰动效应与细胞状态变异。
最优传输框架如CINEMA-OT在因果框架内通过反事实细胞对推断单细胞水平的因果处理效应;CellOT和W1-OT在非因果背景下预测单细胞表达数据中的扰动效应。BATCHIE框架利用主动学习和灵活贝叶斯建模,实现组合药物筛选的自适应实验设计。
因果发现技术利用扰动筛选反推基因调控网络(GRN)。PDGrapher、graphVCI和TFdisc在化学、遗传和/或野生型单细胞RNA测序数据集上训练,使用已构建或推断的GRN预测转录效应。单细胞基础模型(如scGPT和scFoundation)通过自监督预训练编码生物学表示,预测未见遗传扰动响应,并有望扩展到化学基因组学分析。
展望与未来视角
单细胞分子谱分析与化学基因组学的整合有望深化对药物作用机制、多药理学和治疗效果的理解。未来方向包括将单细胞化学基因组学扩展到更生理相关的模型系统,如类器官、患者来源外植体和微生理“器官芯片”平台,以捕捉原生3D结构、微环境相互作用和药物暴露梯度。空间转录组学和光学分子筛选的结合将揭示组织特异性药物响应。人工智能和机器学习模型的进步将加速虚拟药物筛选、组合疗法假设生成和因果调控机制发现。单细胞谱系追踪将阐明细胞群体在药物暴露下的进化动态。跨学科进展将巩固单细胞化学基因组学在现代药物开发中的核心地位。