基于多尺度扩散动力学的无聚类单细胞RNA-seq标记基因识别新方法LMD
《Communications Biology》:Cluster-independent multiscale marker identification in single-cell RNA-seq data using localized marker detector (LMD)
【字体:
大
中
小
】
时间:2025年07月18日
来源:Communications Biology 5.1
编辑推荐:
本研究针对单细胞RNA测序数据中传统标记基因识别方法依赖聚类、难以捕捉多尺度细胞亚群的问题,开发了局部化标记检测器(LMD)。该方法通过构建细胞相似性图谱、模拟基因表达扩散过程,利用KL散度动态变化量化基因表达的局部性特征,在10个真实数据集上验证显示其识别已知标记的AUC值优于8种现有方法,并能通过共定位基因模块揭示细胞周期、B细胞分化等生物学过程,为单细胞数据分析提供了不依赖批次校正的跨样本比较新策略。
随着单细胞RNA测序技术的迅猛发展,研究人员现在能够同时获得103-107个细胞的转录组数据,这为了解细胞异质性、分化过程以及细胞间通讯、空间组织等生物学问题提供了前所未有的机会。然而,在这个充满机遇的领域,一个长期存在的技术瓶颈始终困扰着研究者——如何准确识别真正有生物学意义的标记基因?
传统方法通常先对细胞进行聚类,再通过差异表达分析寻找标记基因。这种"先聚类后找标记"的策略存在明显局限性:聚类结果的不稳定性会直接影响标记基因的可靠性,且难以发现定义新细胞亚型的基因。更关键的是,这种方法无法捕捉那些只在高度相似细胞群中特异性表达的"局部化基因",而这些基因往往蕴含着细胞身份和状态的关键信息。
针对这一挑战,耶鲁大学Kluger团队在《Communications Biology》上发表了创新性研究成果。他们开发的局部化标记检测器(Localized Marker Detector, LMD)摒弃了传统的聚类思路,转而从细胞相似性图谱的扩散动力学角度出发,实现了真正意义上的多尺度、无聚类标记基因识别。
LMD方法的核心技术流程包括三个关键步骤:首先构建细胞间的k近邻相似性图谱,将基因表达量归一化为概率分布作为初始状态;然后在不同时间尺度上模拟基因表达在细胞图谱上的扩散过程,追踪其动态变化;最后通过计算归一化KL散度曲线下面积得到LMD评分,评分越低表明基因表达越局部化。这种方法巧妙地利用了物理学中的扩散原理——局部化表达模式需要更长时间才能扩散至整个细胞图谱,从而实现了对基因表达局部性的精确量化。
研究人员在Tabula Muris小鼠骨髓数据集上,将LMD与8种现有方法进行了系统比较。结果显示,LMD与Seurat v4的相关性最高,而与singleCellHaystack的相关性最低。更重要的是,LMD选择的标记基因通常在一个或多个紧密的细胞邻域中表达,而其他方法要么优先选择缺乏局部性的标记,要么忽略了在细胞亚群中表达的标记。例如,Seurat v4通过差异表达识别基因,Hotspot优先考虑具有全局变异的基因,两者都可能忽略标记基因在特定细胞群中的限制性表达。
在10个真实单细胞RNA测序数据集上的评估表明,LMD在识别已知标记基因方面表现优异。对于第一个真实标记集(来自标记数据库),LMD在10个数据集中的5个排名第一;对于第二个标记集(跨细胞类型表达差异最大的前100个基因),LMD同样在5个数据集中排名第一。基于中位排名,LMD在两个真实标记集上都实现了最佳性能。此外,使用密度指数评估标记基因增强细胞群分离能力的结果显示,LMD在Tabula Muris骨髓FACS数据集上获得了比其他方法更高的密度指数值。
LMD标记揭示小鼠骨髓中不同长度尺度的功能模块和细胞状态
研究人员通过基因模块分析展示了LMD标记在表征功能细胞群方面的灵活性。在Tabula Muris骨髓FACS数据集中,他们基于拐点选择了前1741个LMD候选标记,并识别出24个共定位基因模块。这些模块与细胞相似性图谱的特定区域相关,使得能够在不同长度尺度上表征数据。
在较大长度尺度上,LMD识别出三个与细胞周期阶段显著相关的基因模块:模块22与S期相关,模块20与S/M期相关,模块19与M期相关。在FACS和液滴两种数据集上,这些基因模块在细胞t-SNE嵌入上的表现与基于已知细胞周期标记的Seurat细胞周期注释高度一致,显示了标记的渐进激活,揭示了细胞周期进程的动态性。
在细胞类型分辨率层面,LMD识别出多个对预注释细胞类型具有特异性的模块。18种细胞类型中的11种包含至少一个明显激活的模块。这些模块与细胞类型的关系通过纳入用于注释该数据集的典型细胞类型标记得到进一步验证。
更重要的是,LMD能够超越细胞类型识别,发现更高分辨率的生物学过程。例如,识别出追踪B淋巴细胞分化过程的基因模块:模块7(包含Lef1和Enpep)区分原B细胞,模块6(包含Rag2和Il7r)代表前原B细胞阶段,模块2(包含Ms4a1和Cd22)与未成熟和成熟B细胞相关,模块3(包含Fcer2a和Cxcr5)表征初始B细胞。类似地,研究人员还识别出至少4个与粒细胞生成相关的模块,揭示了粒细胞发育的不同阶段和亚型。
LMD表征小鼠真皮凝集物发生中的共享和突变特异性细胞群体
在毛囊真皮凝集物(Dermal Condensates, DCs)系统中,LMD展示了其在跨样本比较中的独特优势。研究人员收集了E13.5和E14.5野生型(WT)和配对的SmoM2突变型小鼠皮肤样本进行10X单细胞RNA测序,重点关注E13.5 SmoM2样本并识别出17个基因模块。
研究发现,LMD能够识别在突变型和野生型样本间保守的生物学功能。三个不同的基因模块捕获了细胞周期进程中的精细阶段:模块1表征S到G2/M转换期,模块3表现G2/M期基因表达,模块2富集于晚期G2和M期基因。这些模块的局部化模式在配对的E13.5 WT样本中也得到观察,且在新的嵌入中显示出良好的重叠,表明这些细胞周期阶段在两个样本中都存在。
更有意义的是,LMD捕捉到了DC生成过程中不同细胞状态。研究人员在E13.5 SmoM2中识别出三个模块(模块14、16、15),代表Wnt信号梯度递增的细胞亚群。模块14包含Lef1(Wnt/β-catenin信号直接下游靶标),捕获参与Wnt信号的最广泛细胞群;模块15包含DC标记Sox2,捕获代表DC的最窄细胞亚群;模块16代表这一激活过程的中间阶段,可能突出那些承诺向DC状态转变的细胞。
最重要的是,LMD发现了一个新的突变特异性细胞状态。模块12在E13.5和E14.5 SmoM2中显示局部化模式,但在配对的WT样本中缺失。通过FISH和EdU脉冲追踪分析验证,发现Trp53inp1阳性细胞大多不掺入EdU核苷酸,表明它们不在细胞周期的S期,基本处于静止状态。但当在24小时前脉冲EdU时,发现许多前体细胞被标记,表明这些细胞是增殖细胞的子代。这一发现提示模块12代表一个突变特异性的静止细胞状态,体现了从增殖到静止的转变过程。
LMD的创新性在于其从细胞相似性图谱的扩散动力学角度识别局部化标记基因的新思路。该方法不仅在各种单细胞RNA测序数据集中持续恢复已知的细胞类型标记,表现优于其他标记识别算法,还能通过基因模块分析揭示多尺度的生物学过程,包括细胞周期、细胞分化路径以及疾病特异性细胞状态。
特别值得强调的是,LMD提供了一种不依赖样本整合或批次校正的跨样本比较新范式。通过投影基因模块表达模式从一个样本到另一个样本,LMD能够检测第二个样本中的局部化模式和相应细胞亚群,有效避免了传统"批次校正"方法难以区分批次效应和真实生物学变异的问题。
研究的局限性主要在于细胞图谱可能引入的偏差——在连接良好的邻域中表达的基因比在相同大小但更孤立邻域中表达的基因扩散更快。未来的改进将侧重于更好地平衡基因在细胞图谱上的分布与图谱几何结构之间的关系。
随着单细胞多组学技术的快速发展,LMD的基本原理有望扩展到其他单细胞技术,如scATAC-seq和空间转录组学。此外,由于LMD基因模块反映共定位基因群,它们可能代表共享调控机制的目标,通过与已知或预测的miRNA或转录因子靶标集交叉分析,可以为理解局限于细微亚群或精细细胞状态的调控活性模式提供新见解。
这项研究为单细胞数据分析提供了强有力的新工具,不仅解决了当前标记基因识别中的关键技术瓶颈,还为理解细胞异质性和动态过程开辟了新途径,对发育生物学、疾病机制研究和精准医疗具有重要意义。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号