CellMemory:基于瓶颈Transformer架构的分布外细胞层级解析新方法及其在单细胞多组学中的应用

《Genome Biology》:CellMemory: hierarchical interpretation of out-of-distribution cells using bottlenecked transformer

【字体: 时间:2025年06月24日 来源:Genome Biology 10.1

编辑推荐:

  本研究针对单细胞组学中分布外(OOD)细胞解析的挑战,受认知神经科学全局工作空间理论(GWT)启发,开发了CellMemory这一瓶颈Transformer架构。该模型通过交叉注意力机制实现细胞表征学习,在15M+细胞数据中展现出卓越的泛化能力,成功解析了空间转录组数据并阐明肺癌患者的肿瘤异质性,为精准医学提供了新型可解释AI工具。

在单细胞组学时代,科学家们正试图构建类似"人类基因组计划"的细胞图谱共识参考,如人类细胞图谱(Human Cell Atlas)和Tabula Sapiens等项目。然而,来自不同个体、技术平台或物种的细胞往往表现出显著分布差异,这些偏离参考范式的细胞被定义为分布外细胞(OOD)。特别是在疾病研究中,恶性细胞与健康细胞间的状态差异,以及不同患者间肿瘤细胞的异质性,使得准确表征这些OOD细胞成为重大挑战。现有方法在同时进行细胞身份推断和数据整合时往往力不从心,且难以充分考虑基因互作关系,而可解释人工智能(xAI)在OOD细胞解析中的应用更是一片未经充分探索的领域。

中国国家生物信息中心的研究团队受神经科学中全局工作空间理论(GWT)启发,开发了CellMemory这一创新瓶颈Transformer架构。该模型模拟大脑中信息竞争写入有限记忆空间的机制,通过交叉注意力实现高效信息处理,在无需预训练的情况下,仅用单轮分析即可完成从粗粒度到细粒度的细胞状态解析。相关研究成果发表在《Genome Biology》上,为单细胞多组学研究提供了新的方法论工具。

研究团队采用了多项关键技术:1)基于GWT的瓶颈Transformer架构设计,使用8个记忆槽(H)实现信息竞争与广播;2)跨15个数据集逾1500万细胞的基准测试体系;3)多层次可解释性分析框架(基因水平和基因程序水平);4)整合单细胞与空间转录组(CosMx/MERFISH/Slide-seq)的跨组学策略;5)基于注意力分数的肿瘤起源细胞追踪方法。特别值得注意的是,所有分析均使用真实临床样本队列,包括来自亚洲免疫多样性图谱(AIDA)的503名健康供体、52例肺癌患者样本以及混合表型急性白血病(MPAL)病例。

方法学创新方面,CellMemory通过"专家模块-记忆空间"的层级结构实现了突破。在"专家模块"中,基因表达值通过词嵌入策略转化为离散token,与CLS标记共同构成K维嵌入空间。记忆空间则通过交叉注意力机制实现信息过滤,其计算公式为:D=?V,其中?=Topk(softmax(Q?K?T/√d))。这种设计使模型参数量减少的同时,时间复杂度和空间复杂度分别降至O(MHK)和O(MH),远优于传统Transformer的O(M2K)和O(M2)。

在基准测试结果中,CellMemory展现出三大优势。首先在泛化性能上,其在hPancreas数据集对罕见β_minor细胞(占比0.3%)的识别准确率达81%,远超Geneformer(11%)和Seurat(0%)。其次在计算效率方面,相比传统自注意力架构,训练耗时降低约40%。最重要的是处理长序列能力,可同时分析131个精细细胞状态,在SEA-AD数据集达到90%的准确率,较scPoli提升30%。

空间组学解析方面,CellMemory实现了亚细胞级精度的表征。在10x Xenium乳腺癌数据中,通过KRT15+上皮细胞的注意力分数分布,准确识别出导管原位癌(DCIS)区域的侵袭性差异。更引人注目的是,在Slide-tags人皮层数据分析中,模型成功鉴定出仅占0.43‰的Micro-PVM_1稀有细胞状态,其标记基因F13A1的注意力模式与表达谱高度一致。

在疾病机制解析方面,研究取得三项重要发现。首先,通过健康参考表征混合表型急性白血病(MPAL),发现始祖细胞样状态占主导,其中记忆槽3聚焦"造血细胞谱系"通路,槽4关注"氧化应激反应",与白血病干细胞特征相符。其次,在髓母细胞瘤(MB)研究中,首次系统鉴定出三类起源细胞:eCN/UBC(兴奋性小脑中间神经元/单极刷细胞)、RL(菱形唇)和GCP(颗粒细胞前体),为亚型特异性治疗提供新靶点。

最具临床价值的是对肺癌异质性的解析。通过构建"AT2-1→AT2-2→过渡细胞→肿瘤细胞"的演化轨迹,发现AT2-2细胞同时丢失AT2特征(SFTPC)和获得肿瘤相关特性(SCGB3A2)。在PA03患者中,ClubtoTrans细胞表现出与肿瘤细胞相似的拷贝数变异(CNV)模式,特别是在KRT8、CEACAM6等致癌区域,提示部分肺腺癌(LUAD)可能通过支气管细胞转分化发展而来。

这项研究的结论与讨论部分强调了三大科学意义:其一,CellMemory首次将认知科学理论与深度学习相结合,为单细胞分析开辟了新范式;其二,模型的可解释机制使研究者能追溯肿瘤细胞的发育起源,如发现Group3/4髓母细胞瘤分别起源于RL和eCN/UBC;其三,在肺癌研究中揭示的AT2-2中间态和ClubtoTrans细胞,为理解肿瘤异质性和药物抵抗提供了全新视角。值得关注的是,所有发现均得到CNV分析和细胞互作网络的支持,且与既往报道的HLA-E免疫逃逸机制相印证。

技术层面上,该研究证实了瓶颈架构在生物医学AI中的独特价值。记忆槽的竞争机制天然适合处理单细胞数据的稀疏性和高噪声,而广播机制则保证了信息的全局整合。这种设计使得CellMemory在保持高性能的同时,参数量仅为传统Transformer的1/8。作者特别指出,与Perceiver等通用架构相比,CellMemory在基因程序解析方面具有显著优势,其记忆槽能自发聚焦于特定生物学通路。

展望未来,随着单细胞参考图谱的不断完善,CellMemory有望成为跨模态数据整合的标准工具。特别是在空间多组学和临床样本分析中,其处理长token序列的能力将大大降低预训练成本。研究者建议下一步可探索记忆槽与已知生物通路的对应关系,这将进一步提升模型的可解释性,推动精准医学的发展。

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号