scREPA:基于循环一致性表征对齐的单细胞扰动响应预测新方法
《Computational Biology and Chemistry》:scREPA: Predicting single-cell perturbation responses with cycle-consistent representation alignment
【字体:
大
中
小
】
时间:2025年10月15日
来源:Computational Biology and Chemistry 3.1
编辑推荐:
本研究针对单细胞RNA测序数据高维稀疏、噪声显著且样本量有限等挑战,提出了一种结合变分自编码器与预训练单细胞基础模型的表征对齐框架scREPA。该模型通过循环一致性对齐策略与最优传输理论,实现了对未见细胞类型及跨研究数据的精准扰动响应预测,在多个真实数据集上显著优于现有方法,为药物筛选与疾病机制解析提供了可靠的计算工具。
在单细胞生物学研究快速发展的今天,科学家们已经能够通过单细胞RNA测序(scRNA-seq)技术在单个细胞水平上观察基因表达模式。然而,传统的细胞图谱只能提供静态的细胞状态快照,无法揭示细胞在受到药物刺激、病原体感染或基因扰动等干预后会发生怎样的动态变化。这种动态响应信息对于理解疾病机制、开发靶向疗法至关重要。由于大规模扰动实验成本高昂且技术复杂,计算模型成为预测细胞扰动响应的重要工具。
现有方法如scGen、trVAE等基于变分自编码器(VAE)的模型在处理高维稀疏的单细胞数据时面临诸多挑战:它们难以准确捕捉细胞类型的异质性,对噪声敏感,且在跨数据集预测时泛化能力有限。另一方面,虽然单细胞基础模型(scFMs)如scGPT通过在海量数据上预训练获得了丰富的生物学知识,但直接微调这些大型模型需要巨大的计算资源,限制了其实际应用。
受到生成式扩散模型中表征对齐(REPA)技术的启发,香港城市大学的研究团队开发了scREPA框架,创新性地将轻量级VAE与预训练scFMs的生物语义表征进行对齐。该研究发表于《Computational Biology and Chemistry》,为解决单细胞扰动预测的瓶颈问题提供了新思路。
研究人员采用了三个关键技术创新:首先设计了一种双路径编码架构,同时提取VAE潜在嵌入和scFM生物学表征;其次提出循环一致性表征对齐机制,通过双重约束确保原始与重建表征的语义一致性;最后在推理阶段引入最优传输(OT)理论,对齐未配对控制组与扰动组的潜在分布。模型在PBMC(外周血单个核细胞)、Hpoly.Day10和沙门氏菌感染数据集上进行了系统验证,采用留一细胞类型交叉验证策略评估泛化能力。
研究使用了来自Kang等(2018)的PBMC数据集(IFN-β刺激)、Haber等(2017)的Hpoly.Day10数据集(幽门螺杆菌感染)和沙门氏菌数据集,以及Zheng等(2017)的PBMC数据集用于跨研究评估。所有数据均按照scGen协议进行过滤、归一化和对数转换,确保预处理一致性。
scREPA核心由变分自编码器(CycVAE)和表征对齐模块构成。控制组基因表达同时输入可训练编码器和预训练scGPT模型,分别生成潜在变量z和生物学嵌入zfm。通过余弦相似度损失函数实现三者间的对齐:原始编码z与scFM嵌入zfm、原始编码z与重建后再编码z'、以及z'与zfm之间的一致性约束。总损失函数整合了重构损失、KL散度、循环一致性损失和表征对齐损失,通过超参数α、β、γ平衡各项贡献。
训练完成后,模型采用最优传输进行分布对齐。计算控制组与扰动组潜在表征的耦合矩阵G,通过Wasserstein距离最小化寻找最优匹配。对于测试样本,选取训练集中余弦相似度最高的前5%控制样本,加权融合其扰动增量Δ,最终通过解码器生成预测的扰动基因表达。
3.2. scREPA准确预测未见细胞类型的单细胞扰动响应
PCA可视化显示scREPA预测的CD4T细胞扰动响应与真实扰动状态在低维空间高度重叠。线性回归分析表明,对于前100个差异表达基因(DEGs)和全部基因,预测值与真实值的确定系数R2分别达到0.9839和0.9699。小提琴图显示关键差异基因ISG15的表达分布与真实扰动高度一致,气泡图进一步验证了前20个DEGs在控制组、预测组和扰动组间的表达模式匹配。
3.3. scREPA在未见细胞类型上超越现有方法
在三个数据集上的22项子实验中,scREPA在全部基因和前100个DEGs的均值R2上分别达到0.9525和0.7756,较次优方法scPRAM提升5.42%和23.55%。Wasserstein距离(WD)分析表明,scREPA预测分布与真实扰动分布差异最小,尤其在全部基因评估中25/25实验领先。PCA对比可视化证实scREPA预测结果较scPRAM更接近真实扰动状态。
在PBMC数据集中,scREPA识别的DEGs与真实扰动数据的重叠度最高,特别是在树突状细胞和CD14+单核细胞中分别达到83和80个共同DEGs(前100个)。Reactome 2024通路富集分析显示,预测的DEGs显著富集于干扰素信号通路和抗病毒机制,与IFN-β刺激的生物学背景高度吻合。
在Study A(Kang等)与Study B(Zheng等)的跨研究实验中,scREPA在数据整合模式下(A+B控制组+A扰动组)表现最佳,平均R2达到0.9495(全部基因)和0.9525(前100个DEGs)。结果表明模型能有效整合异质控制数据,缓解批次效应,实现跨数据集的稳健预测。
去除REPA损失组件后,模型性能普遍下降:NK细胞共同DEGs从60降至52,全部基因R2从0.9404降至0.9278。对比scGPT与Geneformer嵌入,scGPT以平均R2 0.9495优于Geneformer的0.9333,故作为默认选择。
在0.1×至1×训练数据规模下,scREPA保持稳定性能。例如树突状细胞在0.1×规模下全部基因R2为0.9214,至1×时提升至0.9676。即使在最低数据规模下,模型仍保持可靠预测能力,凸显其在数据受限场景下的实用性。
研究结论部分指出,scREPA通过融合表征对齐与最优传输理论,实现了对单细胞扰动响应的精准预测,尤其在未配对数据和跨研究场景下展现强大泛化能力。该框架显著降低了对大规模扰动实验的依赖,为药物重定位和个性化医疗提供了计算基础。局限性在于当前模型主要适用于人类转录组数据,且假设扰动效应可通过全局潜在偏移表征。未来工作将扩展至更复杂的扰动场景和多组学数据整合,进一步推动动态转录组推理的发展。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号