编辑推荐:
为解决从复杂大脑基因表达数据中提取通用特征及克服个体差异问题,都灵大学研究人员开展基于随机块模型层次版本(hSBM)分析艾伦人脑图谱研究,发现 hSBM 能有效识别通用模式等,为大脑研究提供新方法。
大脑,这个人体中最为神秘且复杂的 “小宇宙”,操控着我们的每一个动作、每一种情绪和每一段记忆。它由众多区域构成,不同区域有着独特的细胞类型分布和功能连接模式,而这一切的根源都在于基因表达的差异。在现代神经科学领域,如何精确地将大脑解剖结构的遗传信息与它们潜在的生物学功能联系起来,一直是个未解之谜。尽管如今在整体和单细胞水平上,研究人员已经积累了海量的基因表达数据,但由于缺乏合适的数据挖掘工具,找到不依赖于特定个体、所有大脑共有的 “通用模式” 仍是一项极具挑战性的任务。
为了攻克这一难题,来自都灵大学(University of Turin)的 Letizia Pizzini、Filippo Valle、Matteo Osella 和 Michele Caselle 等研究人员展开了深入探索。他们的研究成果意义重大,为大脑基因表达研究开辟了新的道路,有望帮助人们更深入地理解大脑的奥秘。该研究发表于Scientific Reports杂志。
在这项研究中,研究人员运用了多种关键技术方法。首先是数据处理技术,他们使用艾伦人脑图谱(Allen Human Brain Atlas,AHBA)的数据集,该数据集涵盖了 6 个神经典型成年大脑的 3702 个空间不同组织样本中 20000 多个基因的表达水平数据。在数据预处理阶段,研究人员通过重新注释和强度基于过滤(intensity based filtering,IBF)等操作,对数据进行了清洗和筛选,去除了与基因关联不明确以及信号强度低的探针 。其次,研究人员运用随机块模型层次版本(hierarchical version of Stochastic Block Modeling,hSBM)算法进行主题建模分析,将基因表达数据构建为二分网络,以此来挖掘数据中的潜在结构和模式。此外,为了评估 hSBM 算法的性能,研究人员还选择了加权基因共表达网络分析(Weighted Gene Correlation Network Analysis,WGCNA)、潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)和层次聚类(hierarchical clustering)等算法进行对比分析。
研究人员取得了一系列令人瞩目的结果:
- hSBM 对 AHBA 数据集的主题建模分析:研究人员将 AHBA 数据表示为二分网络,使用 hSBM 算法进行分析。该算法能自动检测主题数量,并对网络两侧的基因和样本进行层次聚类,有效克服了标准聚类方法的一些局限性。hSBM 算法识别出了具有四个分辨率层次的结构,其中第二层和第三层结果最具研究价值。在第二层,样本被分为 9 个簇,基因被分为 32 个主题,这一分辨率与 AHBA 的 “区域” 水平相对应;第三层则对应 “亚区域” 水平。通过分析,研究人员发现 hSBM 在仅基于样本的基因表达模式区分不同组织方面表现出色,能够清晰地将大脑的不同区域,如小脑、海马体等区分开来23。
- 不同聚类算法的比较:研究人员对比了 hSBM 与其他聚类算法的性能。在对 AHBA 数据集进行聚类时,他们发现 hSBM 在识别大脑结构方面表现优异。通过计算归一化互信息(Normalized Mutual Information,NMI*),研究人员发现 hSBM 在第二层分辨率下的 NMI * 值最高,优于 WGCNA、LDA 和层次聚类算法。这表明 hSBM 在识别有意义的生物学注释和寻找不同个体间保守的 “通用” 特征方面表现更出色14。
- 与大脑区域相关的主题功能富集:研究人员对与大脑区域相关的主题进行了功能富集分析。通过特定的计算方法,他们识别出与感兴趣区域特别相关的主题,然后对这些主题中包含的基因进行功能富集研究。结果发现,许多主题都富含与相关大脑结构或功能相关的注释基因集。例如,Topic 11 在小脑样本中高度富集,且该主题中的基因确实富含小脑标记物;Topic 2 与海马体结构相关,并且富集了与记忆相关的基因集,这与海马体在记忆中的关键功能相吻合56。
- 与 GTEx 数据库的比较:研究人员将他们识别出的主题与基因型 - 组织表达(Genotype-Tissue Expression,GTEx)项目收集的大脑相关基因表达数据进行比较。结果发现,如 Topic 11 和 Topic 19 等主题在小脑和大脑皮层的特定区域高度富集,而 GTEx 数据库中高度表达的基因集并没有这种明显的富集现象,这表明 hSBM 识别出的主题中的所有基因在某些解剖结构的调控模式中共同发挥作用78。
- 混合成员身份和替代调控模式:研究中还发现了基因层面的混合成员身份现象。例如,Topic 30 完全包含在 Topic 19 中,且 Topic 30 中的基因都是 microRNA mir-142 的靶标,这些基因在神经炎症相关的大脑功能中表现出特异性富集;Topic 27 完全包含在 Topic 9 中,其中的蛋白编码基因大多是 mir-218 的靶标。这表明某些基因的混合成员身份可能是大脑特定区域精确调控过程的标志910。
- hSBM 识别通用特征的能力:研究人员通过将组织样本投影到二维转录主成分空间,评估不同算法识别通用特征的能力。结果发现,WGCNA 和 LDA 的结果能够有效区分六个供体大脑,但 hSBM 的结果显示样本不再按供体区分。这表明 hSBM 可能以不同方式整合个体差异或较少关注这些差异,从而有可能捕获数据集中更普遍的模式1112。
- hSBM 在 RNA 测序数据上的一致性结果:为了评估 hSBM 在不同数据类型上的稳健性,研究人员使用 AHBA 的 RNA 测序数据集进行分析。结果显示,hSBM 在 RNA 测序数据上生成的样本聚类结果与解剖结构的组织良好对齐,并且与微阵列数据分析中确定的特定大脑区域的基因集有显著重叠。这证明了 hSBM 模型的可靠性,即使应用于不同的数据集也能产生稳定的结果131414。
综合来看,研究人员基于 hSBM 的分析方法在研究大脑基因表达数据方面取得了重要进展。hSBM 在识别大脑基因表达的通用模式、克服个体差异影响以及揭示基因与大脑区域功能关系等方面表现出色,相比其他传统算法具有明显优势。这一研究成果为大脑基因表达研究提供了新的有力工具,有助于推动神经科学领域对大脑复杂机制的深入理解,为后续研究大脑发育、神经疾病发生机制等问题奠定了坚实基础。尽管 hSBM 目前存在计算成本较高的问题,但随着研究的不断深入和算法的改进,有望在未来发挥更大的作用,助力破解大脑更多的奥秘。