基于性别差异基因表达模式的单核RNA测序样本解卷积新方法

《NAR Genomics and Bioinformatics》:Accurate sample deconvolution of pooled snRNA-seq using sex-dependent gene expression patterns

【字体: 时间:2025年11月23日 来源:NAR Genomics and Bioinformatics 2.8

编辑推荐:

  本研究针对单核RNA测序(snRNA-seq)样本混合导致个体数据丢失的问题,开发了一种利用性别差异基因表达特征进行样本解卷积的机器学习方法。研究人员通过分析大鼠腹侧被盖区(VTA)数据,筛选出302个关键性别差异表达基因(DEGs),训练的逻辑回归(LR)、随机森林(RF)等模型在测试集上达到93%-95%的准确率,且可推广至伏隔核(NAc)数据集。该方法为snRNA-seq研究提供了无需额外实验操作的样本解卷积方案,显著降低测序成本并提高分析效能。

  
在神经科学研究的精密化浪潮中,单核RNA测序(single-nucleus RNA sequencing, snRNA-seq)技术以其单细胞水平的分辨率,为揭示脑部复杂细胞类型的基因表达模式带来了革命性突破。然而,这项先进技术面临着一个棘手的现实矛盾:为了获得足够的统计效力需要大样本量,但每个样本的高昂测序成本又限制了实验规模。更棘手的是,基于液滴的snRNA-seq技术通常需要将多个动物的组织样本混合,以达到最佳核浓度。这种混合策略虽然解决了技术层面的需求,却导致个体样本身份信息的丢失,使得研究人员无法追踪个体差异对分子表型的影响,严重制约了疾病机制研究和遗传关联分析的深度。
目前主流的样本解卷积技术如核哈希标记(nuclei hashing)和基因型多重分析(genotype-based multiplexing)各有限制。核哈希标记需要预先用寡核苷酸条形码抗体标记样本核,但在测序过程中易受环境信号干扰;而基因型多重分析则需要额外采集样本基因型数据,且受限于snRNA-seq数据中变异位点的覆盖不足。这两种方法都增加了实验复杂度和成本,与研究者追求高效简洁的实验设计初衷相悖。
在这一背景下,阿拉巴马大学伯明翰分校神经生物学系的Guy M. Twa等人在《NAR Genomics and Bioinformatics》上发表了创新性研究,提出了一种巧妙利用性别差异基因表达模式进行样本解卷积的新策略。该方法的核心思想是将不同性别动物的核混合在单个微流体孔中,通过机器学习模型事后进行细胞性别分类,从而实现样本身份的解卷积。这种思路的巧妙之处在于,它利用了样本固有的生物学特征而非外部标记,既不需要额外的样本预处理,也无需采集其他模态的数据。
研究人员首先利用已发表的大鼠腹侧被盖区(VTA)单核RNA测序数据作为训练基础。该数据集包含22149个细胞和16种转录定义的细胞类型,男女性别细胞数量在各细胞类型中基本均衡。研究团队将细胞按7:3比例随机划分为训练集和测试集,并保持细胞类型和性别的分布比例。
关键技术方法包括:使用CellRanger(v6.1.2)将原始fastq文件比对至Ensembl mRatBn7.2基因组;通过Wilcoxon秩和检验鉴定性别差异表达基因(DEGs);采用Boruta算法从741个显著DEGs中筛选出302个最具预测价值的特征基因;训练逻辑回归(LR)、随机森林(RF)、支持向量机(SVM)和多层感知器(MLP)四种机器学习模型,并以仅基于Xist基因和Y染色体基因的简单分类器作为对照;最后在独立的大鼠伏隔核(NAc)数据集上验证模型泛化能力。
Determination of sex-dependent transcriptome features
研究团队通过两阶段特征选择策略确定性别依赖性转录组特征。首先通过Wilcoxon秩和检验在每个细胞类型中鉴定男女细胞间的差异表达基因,共发现741个在至少一种细胞类型中具有显著性别偏向表达的基因。随后利用Boruta特征选择算法进一步筛选,通过3000次迭代比较真实基因与随机重排生成的"影子特征"的重要性,最终确认302个基因对细胞性别分类具有重要价值。这些基因中包括已知的性别相关基因如X染色体基因Xist和Kdm6a,Y染色体基因Uty和Ddx31,以及Xist位点附近的长链非编码RNA ENSRNOG00000065796。
Machine learning models perform accurate cell sex classification
研究人员评估了四种机器学习模型和两种非机器学习分类器的性能。在VTA测试集上,所有机器学习模型均显著优于仅基于性染色体基因的简单分类器。逻辑回归和支持向量机模型表现最佳,总体准确率约95%,AUC-ROC(受试者工作特征曲线下面积)达0.99。随机森林和多层感知器模型稍逊,准确率分别为94%和93%。相比之下,仅基于Y染色体基因的分类器特异性高但敏感性差,误分类了21%的男性细胞;而基于Xist基因的分类器敏感性完美但特异性不足,误分类了25%的女性细胞。
研究还发现,通过设定预测概率阈值可以进一步提高分类准确性。剔除预测概率在0.4-0.6之间的细胞(占2.8%),剩余细胞的分类准确率可从94.5%提升至95.8%;而剔除预测概率在0.25-0.75之间的细胞(占7.3%),准确率可达97.4%。值得注意的是,这些低置信度的预测主要集中在非神经元细胞中。
Model performance is limited by information content in non-neuronal cell transcriptome
针对神经元和非神经元细胞性能差异的问题,研究人员分别训练了细胞类型特异性模型。尽管使用了特定的特征集(神经元59个特征,非神经元244个特征),细胞类型特异性模型的性能与全细胞模型相当,仅略有下降。这表明性能差异并非源于训练数据中细胞类型组成的不平衡,而是反映了非神经元细胞在性别分类中的固有局限性。
进一步分析发现,非神经元细胞平均检测到的基因数量较少,表达的模型预测基因也少于神经元细胞。通过计算模型基因表达与细胞性别间的互信息,发现58%的基因在神经元细胞中提供更多性别信息,特别是位于性染色体上的六个基因(ENSRNOG000000060617、Xist、ENSRNOG00000065796、Eif2s3y、Kdm5d、Ddx3)在神经元中的信息量明显高于非神经元。
Model performance generalizes to independent data
为验证模型的泛化能力,研究人员将在VTA数据上训练的模型应用于独立的大鼠伏隔核(NAc)数据集。该数据集包含39252个细胞,主要由GABA能中型多棘神经元组成,与VTA的细胞组成有明显差异。尽管如此,所有机器学习模型仍保持高性能,总体准确率达90%-92%,AUC-ROC为0.98-0.99。其中随机森林模型表现最佳,准确率达92.1%,AUC-ROC为0.99。这一结果证明模型学习的性别分类规则具有稳健性,可推广至不同脑区域的数据集。
本研究的意义不仅在于提供了一种经济高效的snRNA-seq样本解卷积方法,更开创了利用固有生物学特征进行样本身份识别的新范式。与需要额外实验操作的传统方法相比,性别依赖性转录组特征解卷积策略显著降低了实验复杂度和成本。特别是逻辑回归模型,以其高准确性、易解释性和低计算资源需求,成为大多数研究的理想选择。
研究人员也客观讨论了该方法的局限性,特别是在非神经元细胞中性能相对较低的问题,这可能与这些细胞中性别预测基因表达较少且信息量较低有关。为此,他们建议可将性别基础解卷积与其他解卷积策略(如条形码哈希)整合使用,利用各方法的互补优势解决模糊的样本分配问题。
展望未来,这种基于性别差异转录组特征的解卷积思路有望扩展至其他测序模态,如单核ATAC测序(snATAC-seq),特别是在多组学数据集中,不同模态的信息可能协同增强性别预测的准确性。此外,对于已有性别平衡但未解卷积的公开数据集,该方法提供了重新挖掘个体水平信息的可能。
这项研究为单核RNA测序领域提供了一种创新性的样本解卷积解决方案,使研究人员能够在不大幅增加实验成本和复杂度的前提下,获得个体水平的分析能力,为更强大、更经济的snRNA-seq研究设计开辟了新途径。随着机器学习方法的不断优化和更多生物学特征的挖掘,这种基于固有特征的解卷积策略有望在单细胞基因组学研究中发挥越来越重要的作用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号