
-
生物通官微
陪你抓住生命科技
跳动的脉搏
空间多批次转录组数据RNA速率推断新方法spVelo的研发与应用
【字体: 大 中 小 】 时间:2025年08月12日 来源:Genome Biology 9.4
编辑推荐:
研究人员针对现有RNA速率(RNA velocity)方法无法利用空间信息且难以处理多批次数据的局限,开发了整合变分自编码器(VAE)与图注意力网络(GAT)的spVelo框架。该模型通过最大均值差异(MMD)惩罚实现多批次数据整合,在胰腺癌和口腔鳞癌(OSCC)数据中显著提升轨迹推断准确性,并支持基因调控网络(GRN)和细胞通讯(CCC)等下游分析,为复杂组织动态研究提供新工具。
在单细胞组学时代,解析细胞命运决定过程犹如解读生命的时间密码。传统RNA速率分析方法如scVelo虽能通过剪接/未剪接mRNA预测细胞状态变化,却面临两大瓶颈:一是无法利用空间转录组提供的微环境信息,二是难以整合多批次数据中的全局动态模式。更棘手的是,现有方法对转录爆发(MURK)基因的动力学建模不足,可能导致错误的轨迹推断——这个问题在癌症等复杂系统中尤为突出。
针对这些挑战,耶鲁大学公共卫生学院(Yale School of Public Health)的Wenxin Long等研究者开发了spVelo框架。该成果发表于《Genome Biology》,通过融合空间邻域关系与多批次校正技术,首次实现了空间多批次转录组数据的RNA速率精准推断。研究团队创新性地将变分自编码器(VAE)与图注意力网络(GAT)耦合,其中VAE编码基因表达特征,GAT则处理空间位置和批次信息,辅以MMD惩罚消除批次效应。这种双编码器设计使模型能同时捕捉基因表达动态和空间约束,其推断的细胞状态不确定性量化指标更可识别多能祖细胞等异质性群体。
关键技术包括:1) 基于k近邻(kNN)和互近邻(MNN)构建空间-批次混合图网络;2) 采用神经微分方程(neural ODE)建模基因特异性动力学参数;3) 开发新型评价指标(方向得分/transition score)验证轨迹准确性;4) 通过硅基因删除(in silico deletion)推断EGFR等癌基因的调控网络。
spVelo推断准确的速度和轨迹
在模拟胰腺数据集和真实OSCC数据中,spVelo的轨迹方向得分显著优于scVelo、veloVI等方法(图2a-d)。通过相位肖像分析证实,其能准确拟合MURK基因的非线性动力学(图4a),而传统方法常误判此类基因的调控方向。
不确定性量化揭示肿瘤异质性
基于潜空间微分熵的量化显示,口腔癌边缘细胞具有更高状态不确定性(图2h),富集分析发现这些细胞显著上调EMT(上皮-间质转化)通路基因(附加文件1图S8),印证了肿瘤侵袭前沿的生物学特性。
复杂轨迹模式的发现
在OSCC样本中,spVelo首次识别出核心-边缘细胞的汇聚型轨迹(图3b)和双分支分化路径(图3a)。通过K-means聚类和标志基因表达验证,发现原注释的edge(2)细胞应重新归类为transitory(2)亚群(图3e-f)。
下游应用的拓展
研究团队进一步展示spVelo的四大应用价值:1) 通过EGFR基因扰动实验揭示其靶基因的调控网络(图5a);2) 基于配体-受体对(ANXA1-EGFR)的空间共定位量化细胞通讯强度(图5b);3) 预测肿瘤核心区细胞的主动信号发送特征(图5c);4) 筛选出富集于MSigDB癌基因集的驱动标记物(图4c)。
这项研究的意义在于突破了空间多组学数据分析的方法学瓶颈。spVelo不仅解决了传统RNA速率方法忽略空间约束的缺陷,其多批次整合能力更使其适用于大型队列研究。通过将动力学建模与深度学习结合,该框架为发育生物学和肿瘤微环境研究提供了新范式——从识别癌前病变的早期转录波动,到解析转移灶形成的空间动力学,乃至优化空间多组学实验设计。特别值得注意的是,模型开源遵循MIT协议,其模块化架构允许整合单细胞表观组等新型数据,为时空多组学时代的动态生物学研究奠定了方法学基础。
生物通微信公众号
知名企业招聘