-
生物通官微
陪你抓住生命科技
跳动的脉搏
融合大语言模型的多组学空间域分析新方法spaLLM:提升空间转录组数据的解析能力
《Briefings in Bioinformatics》:spaLLM: enhancing spatial domain analysis in multi-omics data through large language model integration
【字体: 大 中 小 】 时间:2025年07月04日 来源:Briefings in Bioinformatics 6.8
编辑推荐:
针对空间多组学数据基因覆盖度低、分辨率不足的挑战,吉林大学与密苏里大学团队开发了首个整合大语言模型(LLM)的空间域分析方法spaLLM。该方法通过scGPT预训练模型增强特征表示,结合图注意力机制实现多模态融合,在四种平台数据集上超越8种现有方法,为组织微环境研究提供了新工具。
在生命科学领域,空间多组学技术正掀起一场研究革命。这类技术能在保留组织空间位置信息的同时,检测基因表达、染色质开放状态和蛋白质分布等多维数据,为理解组织异质性和细胞功能提供了前所未有的视角。然而,当前空间多组学数据面临两大瓶颈:一是基因检测覆盖度有限,难以达到单细胞分辨率;二是现有分析方法仅利用数值化的基因表达矩阵,忽略了基因本身的生物学背景信息。这些问题严重制约了空间域(spatial domain)——即具有特定分子特征和功能的组织区域——的精准识别。
为突破这些限制,吉林大学与密苏里大学的研究团队在《Briefings in Bioinformatics》发表了创新性研究成果。他们开发了spaLLM方法,首次将大语言模型(LLM)引入空间多组学分析,通过整合单细胞转录组预训练知识,显著提升了空间域解析的准确性。该方法在四种不同技术平台(包括MISAR-seq、10x Visium等)的测试中,全面超越SpatialGlue等8种前沿方法,为空间组学研究树立了新标杆。
研究团队采用三大核心技术:首先利用scGPT大语言模型(基于60,697个基因词汇表预训练)生成基因表达嵌入向量,补充空间数据的生物学语义;其次构建多视图图结构,包含空间距离图(基于k近邻算法)和特征相似图(基于Pearson相关系数);最后设计多视图注意力机制,动态整合来自RNA、染色质(ATAC-seq)和蛋白质(ADT)等多组学模态的信息。通过三层图神经网络编码器和对称解码器架构,模型实现了端到端的特征学习和空间域聚类。
在MISAR-seq小鼠胚胎大脑数据集中,spaLLM展现出精细的解剖结构识别能力。如图2所示,该方法不仅能准确划分皮层、脑室区等主要脑区,还能识别传统方法遗漏的软骨组织区域。定量评估显示,spaLLM在调整兰德指数(ARI)、标准化互信息(NMI)等五项指标上均优于对照方法,其中ARI值提升达15%。值得注意的是,注意力权重分析揭示:在软骨组织等形态特征显著区域,空间图信息权重占比达70%,而在免疫细胞富集区则以基因表达特征为主导,证实了多模态融合的科学性。
人类淋巴结数据集(10x Visium平台)的测试进一步验证了方法的普适性。如图3所示,spaLLM成功识别出被其他方法忽略的淋巴窦和小梁结构,在组织边缘区域的划分精度较次优方法提高20%。特别值得关注的是,当处理SPOTS小鼠脾脏数据时,模型在红髓区(高表达Slc4a1、Hba-a1等红细胞相关基因)和白髓区(表达B细胞标志物Fcmr)的识别中,LLM嵌入向量的注意力权重占比超过80%,说明预训练知识对稀有细胞类型的鉴定具有关键作用。
在Spatial-CITE-seq人扁桃体数据中,该方法成功解析了生发中心的明区(light zone)与暗区(dark zone)——这两个区域虽然空间相邻,但分别富集HCLS1/LPP和MZB1/CD23等不同分子标记。如图5所示,通过整合283种蛋白质和28,417个RNA的检测数据,spaLLM生成的UMAP可视化结果清晰呈现了这两个功能亚区的分离,为免疫微环境研究提供了新见解。
这项研究的突破性在于:首次将大语言模型的语义理解能力引入空间组学分析,通过基因嵌入向量弥补了技术固有的检测局限。实验证明,该方法对RNA、ATAC-seq和蛋白质数据均具有兼容性,且计算效率优异——在NVIDIA RTX 3090显卡上仅需数十秒即可完成训练。研究者也指出当前版本暂不支持图像数据的局限,未来将通过扩展模态适应性和优化嵌入策略进一步提升性能。
从科学意义来看,spaLLM为肿瘤微环境、发育生物学和神经科学等领域提供了强大工具。其多模态整合框架不仅能揭示传统单组学方法难以捕捉的空间功能单元,还能通过注意力权重量化不同组学模态的贡献度,为后续技术开发提供理论指导。随着空间多组学技术向亚细胞分辨率发展,这种融合人工智能与生物医学的跨学科方法,必将推动精准医学和基础研究的双重进步。