
-
生物通官微
陪你抓住生命科技
跳动的脉搏
融合Transformer与BERT的图表示学习模型SGTB:优化空间转录组数据基因表达分析的新范式
【字体: 大 中 小 】 时间:2025年05月07日 来源:Computational Biology and Chemistry 2.6
编辑推荐:
为解决空间转录组(ST)数据中复杂空间依赖性和全局特征捕获不足的问题,研究人员开发了整合图卷积网络(GCN)、Transformer和BERT的SGTB模型。该模型通过多尺度特征融合显著提升了细胞类型分类和基因调控网络构建的准确性,为肿瘤微环境等复杂系统研究提供了新工具。实验显示其在DLPFC数据集上ARI指标达0.71,优于现有方法。
在生命科学领域,空间转录组学(Spatial Transcriptomics, ST)技术正掀起一场革命。这项能同时获取基因表达信息及其空间分布的技术,为揭示组织结构和细胞互作机制提供了全新视角。然而,现有分析方法却陷入"看得见局部,看不清全局"的困境——传统图神经网络(GNN)受限于局部感受野,难以捕捉长程空间依赖;而深度学习模型又面临计算效率与精度的两难抉择。这种技术瓶颈严重制约了在肿瘤异质性分析、神经环路解析等复杂场景中的应用。
针对这一挑战,来自山东的研究团队在《Computational Biology and Chemistry》发表创新成果。他们开发的SGTB模型巧妙融合三大技术引擎:多层级图卷积网络(GCN)负责提取细胞邻域特征,Transformer的自注意力机制破解全局关系建模难题,BERT语言模型则赋予基因表达数据语义理解能力。这种"三合一"设计使模型在DLPFC皮层数据集的细胞聚类任务中,将调整兰德指数(Adjusted Rand Index, ARI)提升至0.71,较传统方法提高23%。
关键技术包括:基于10x Visium平台的DLPFC皮层数据集;多层GCN的邻域信息迭代聚合算法;Transformer的多头自注意力机制;BERT的基因表达文本映射策略。研究选用12例人工标注组织切片进行验证。
【SGTB揭示人类前额叶皮层基因表达变异】
通过分析包含6个神经元分层的DLPFC数据集,模型成功重建了皮层空间结构。特别在切片#151507中,其分层识别准确率超越SpaGCN等基准方法,证实了多尺度特征融合的有效性。
【结论与意义】
该研究开创性地将自然语言处理技术与图神经网络结合,为空间组学数据分析树立了新标准。模型在三大方面取得突破:1) 通过GCN-Transformer级联架构实现局部-全局特征协同优化;2) 利用BERT的语义编码能力解析基因调控网络;3) 建立可扩展的计算框架,支持百万级spot数据的高效处理。这些进展不仅为肿瘤微环境研究提供利器,更为单细胞时空组学时代的到来铺平了道路。未来,团队计划将该框架拓展至MERFISH等更高分辨率的空间技术数据集。
生物通微信公众号
知名企业招聘