HIDE算法:基于细胞层级结构的转录组解卷积新方法提升肿瘤微环境解析精度

【字体: 时间:2025年07月16日 来源:Bioinformatics 4.4

编辑推荐:

  研究人员针对传统细胞类型解卷积方法忽略细胞分化层级关系的问题,开发了分层细胞类型解卷积算法HIDE。该研究通过整合细胞谱系树结构,采用分层基因权重优化策略,在乳腺癌单细胞和TCGA数据中实现跨层级一致性解析,显著提升罕见细胞群检测灵敏度(平均NMAE降低50%),为肿瘤免疫微环境研究提供新工具。

  

在肿瘤生物学领域,解析复杂组织中的细胞组成如同破解生命密码。传统细胞类型解卷积(cell-type deconvolution)方法如CIBERSORTx和BayesPrism虽能推断bulk转录组中的细胞比例,却面临两大困境:一是分子特征高度相似的细胞亚群难以区分,二是罕见细胞信号易被主流群体噪声淹没。更关键的是,这些方法忽略了细胞分化过程的层级特性——就像家族族谱,B细胞与T细胞这类"大家族"下还存在IgA浆细胞、调节性T细胞(Treg)等"分支家族",其比例应满足层级加和约束。

挪威卑尔根大学(University of Bergen)信息学系Dennis Volkl团队在《Bioinformatics》发表的研究,提出了革命性的分层细胞类型解卷积算法HIDE(Hierarchical cell-type Deconvolution)。该算法创新性地将细胞谱系树结构融入计算框架,通过三级递进式分析(major-minor-sub-minor)实现:首先用加权基因表达谱解卷积主要细胞类群,继而通过残差bulk生成(residual bulk generation)技术逐层细化亚群,最后通过层级归一化因子ξP确保子类比例总和与父类一致。研究采用DISCO数据库的乳腺癌单细胞数据构建训练集,在模拟测试中HIDE的预测与真实值相关性达0.88(vs CIBERSORTx 0.66),尤其将CXCL13耗竭CD8+ T细胞等罕见亚群的检测灵敏度提升3倍。

关键技术方法包括:1) 基于DISCO数据库98,453个乳腺癌单细胞构建伪bulk训练集;2) 分层基因权重学习(gene-weight learning)优化特征基因选择;3) 残差矩阵运算消除主要细胞群干扰;4) 采用TCGA乳腺癌bulk数据(n=1083)进行生存分析验证。

研究结果部分显示:

  1. 基准测试:HIDE在主要细胞群(major)层级平均Pearson相关性达0.88±0.003,显著优于BayesPrism(0.61)和MuSiC(0.51)。在颗粒细胞等难检测亚群中,NMAE(标准化平均绝对误差)降至0.086±0.002,较基线模型降低58%。

  2. 消融实验:移除残差生成或层级归一化步骤会使NMAE恶化3-8倍,证实层级约束对定量准确性的关键作用。如仅用基因权重学习的简化模型在Treg细胞预测中出现17%的比例高估。

  3. 乳腺癌应用:在TCGA队列中,HIDE解析出27个与生存显著相关的亚群(p<0.05),包括:

    • NK细胞高浸润与所有亚型更好预后相关(LumB HR=0.77, p=0.02)

    • CXCL13+耗竭CD8+ T细胞在TNBC中显著延长生存(p=0.0036)

    • Treg细胞在TNBC中显示促癌特性(HR=1.32, p=0.049)

    • 淋巴结转移患者CXCL1/2/3成纤维细胞比例升高3.8倍(p=0.0038)

讨论部分强调,HIDE首次实现了解卷积结果与生物学层级逻辑的严格兼容。其创新性体现在:1) 通过ξP因子确保各层级比例守恒,避免传统方法中父类与子类预测矛盾(如MuSiC在NK细胞层级间出现相关性仅0.85);2) 分层基因权重策略有效解决转录组共线性问题,使Luminal祖细胞等低丰度群体检测成为可能;3) 为肿瘤免疫治疗提供新生物标志物,如CXCL13+ T细胞可能预示免疫治疗响应。该框架可扩展至其他层级系统(如神经或造血分化谱系),其Python实现已开源。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号