特征选择解耦细胞类型与状态转录程序:提升单细胞多条件差异分析一致性
《BMC Genomics》:On feature selection to disentangle cell type and state transcriptional programs
【字体:
大
中
小
】
时间:2025年11月08日
来源:BMC Genomics 3.7
编辑推荐:
本研究针对单细胞多条件实验中细胞类型与状态转录程序纠缠导致的差异分析结果不一致问题,系统评估了多种特征选择策略。研究人员通过模拟框架和实验数据验证,发现优先选择体现细胞类型特征而非状态变化的基因能显著提高聚类与非聚类差异分析方法结果的一致性,为单细胞数据分析提供了更可靠的嵌入空间构建方案。
随着单细胞RNA测序(scRNA-seq)技术的成熟,科学家们能够以前所未有的分辨率探索细胞间的异质性。在多条件实验设计中(如疾病状态比较或处理前后对照),研究人员不仅关注细胞亚群组成的变化(差异丰度分析,DAA),更希望深入了解特定细胞亚群在不同条件下基因表达的差异(差异状态分析,DSA)。然而,当前分析流程面临一个核心挑战:用于构建细胞低维嵌入空间的特征(基因)选择通常同时包含了细胞类型(相对稳定的特征)和细胞状态(短暂变化的特征)的转录信号,这导致下游的差异分析结果高度依赖于所选的嵌入空间,使得不同分析方法(如基于聚类的方法与基于邻域的非聚类方法)得出的结论难以比较。
为了解决这一难题,Wang等人发表在《BMC Genomics》上的研究提出了一个创新思路:通过特征选择来解耦细胞类型和状态的转录程序。他们假设,如果能在数据分析的起点——基因选择阶段,就优先筛选出那些主要贡献于细胞类型鉴定而非状态变化的基因,那么由此构建的“类型非状态”(type-not-state)嵌入空间将能更清晰地分离细胞类型,同时减少条件相关变异的干扰,从而使下游的DSA结果在不同分析方法间更具可比性。
为了验证这一假设,研究团队综合运用了模拟研究和真实数据验证两种策略。关键技术方法包括:1)利用Splatter包模拟具有竞争性类型和状态效应的单细胞数据;2)开发多种特征评分策略(如基于聚类的F统计量tF、类型/状态解释的方差百分比tPVE/sPVE、基于伪批量差异分析的sPBDS等)来量化基因的“类型特性”和“状态特性”;3)结合上述评分进行特征选择(如tF-sPBDS策略,优先选择类型得分高且状态得分低的基因);4)在选定的基因集上执行标准分析流程(PCA、聚类、差异分析);5)使用多种评估指标(如调整兰德指数ARI、局部逆辛普森指数LISI、主成分回归PCR等)全面评估特征选择效果;6)在真实的Kang等人发表的PBMCscRNA-seq数据集(包含狼疮患者IFN-β处理前后样本)上验证模拟研究结论。
研究人员首先建立了一个模拟框架,通过参数t(控制细胞簇/类型间相似性)和s(控制条件/状态间相似性)系统地生成具有不同强度和交织程度的类型与状态效应的数据集。
研究评估了多种特征评分方法与模拟设定的真实类型/状态效应的相关性。结果显示,高度可变基因(HVG)和类型评分(tF, tPVE)与真实类型效应的相关性随t增大而增强,且基本不受s影响;反之,状态评分(sPVE, sPBDS)与真实状态效应的相关性随s增大而增强,对t变化不敏感。这证实了这些评分指标的有效性。
在特征选择阶段,除了随机选择、HVG和单纯基于类型得分(tF)的选择外,研究重点测试了三种结合类型和状态评分的“类型非状态”选择策略(如tF-sPBDS,即选择tF排名高而sPBDS排名低的基因)。以模拟中确定的真实类型基因(DEnotDS,即仅在类型间存在差异表达而在状态间无差异的基因)数量作为选择基因数n的基准。
评估结果表明,基于真实类型基因(DEnotDS)的选择在所有评估标准上表现最佳。随机选择和HVG选择整体表现最差,且对状态变化(s)敏感。单纯基于类型效应(tF)的选择在聚类相关指标(如ARI, PCR_k, PVE_k)上表现良好,但在条件相关指标(PCR_g, PVE_g)上较差。而结合了类型和状态效应的选择策略(tF-sPBDS, tF-sPVE, tPVE-sPVE)的结果与基于真实类型基因的选择最为接近。当类型效应(t)足够大时,这些选择策略能仅凭前几个主成分就清晰分辨细胞簇,同时保持不同条件的细胞混合良好,而HVG选择则在许多情况下按条件分离了细胞。
研究进一步将经过不同特征选择策略处理的数据提交给三种DSA方法:基于伪批量的muscat、基于邻域的miloDE和LEMUR。比较发现,miloDE比muscat更准确,且对模拟参数变化不敏感;LEMUR的敏感性较低,当状态效应(s<0.6)时难以识别差异状态基因。通过比较不同DSA方法得出的基因最小调整p值(p*),发现muscat和miloDE之间具有合理的相关性,而LEMUR与其他方法的一致性较差。重要的是,当使用“类型非状态”特征选择时,不同DSA方法(尤其是muscat和miloDE)结果之间的相关性更高,表明分析结果更具可比性。
在Kang等人的真实PBMC数据集上,研究观察到了与模拟研究一致的规律。使用随机、HVG或单纯tF选择基因构建的低维投影(如UMAP)中,即使属于同一细胞类型,不同处理条件的细胞也呈现出明显分离,这反映了嵌入空间中混合了类型和状态程序。
相比之下,采用“类型非状态”策略(如tF-sPBDS)构建的嵌入空间主要保留了细胞类型结构。定量评估(ARI, PCR, PVE)证实,“类型非状态”基因选择能更好地恢复注释的细胞类型为聚类,并将更多的变异归因于细胞类型而非实验条件。在差异基因数量和方法间一致性方面,基于“类型非状态”评分的特征选择也使得不同DSA方法鉴定出的差异基因有更高的重叠度。此外,研究还发现特征选择与批次校正方法(如Harmony)具有互补作用:结合Harmony整合与“类型非状态”选择能获得最佳的细胞簇分离与条件混合效果。
本研究深入探讨了单细胞多条件数据分析中细胞类型与状态转录程序的相互作用及其对差异分析解释的影响。研究强调,用于构建细胞嵌入空间和定义细胞亚群的特征集是影响分析结果可解释性的关键因素。通过有意识地分离类型和状态模式进行特征选择,不仅能够简化生物学解释,还能使基于聚类和基于邻域的分析方法得出更一致的结果。这种分离也为数据整合提供了更清晰的输入嵌入空间,可作为现有整合方法的有益补充。
研究者建议,在开展下游分析时,可以替代传统的高度可变基因(HVG)选择,转而优先分离那些指示细胞类型程序的变异,从而从“干净”的(类型非状态)嵌入空间开始分析。当然,该方法在不同数据集和实验设计(尤其是从离散到连续细胞类型谱系)中的普适性仍需更多实践验证。迭代选择能否发现更稳定的特征从而产生更精细的嵌入空间和亚群定义,是未来值得探索的方向。
总之,Wang等人的工作表明,无论是在多样本、多条件、多亚群的单细胞数据集中使用基于聚类还是基于邻域的方法进行差异发现,特征选择都是实现可解释数据分析的核心考量。将“类型非状态”变异直接纳入细胞嵌入空间和亚群定义,有望成为揭示复杂但可解释的亚群特异性效应的有效途径。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号