
-
生物通官微
陪你抓住生命科技
跳动的脉搏
单细胞转座元件图谱揭示人类细胞身份的新维度:Stellarscope工具在基因组"暗物质"解析中的突破
【字体: 大 中 小 】 时间:2025年06月21日 来源:Cell Reports Methods 4.3
编辑推荐:
(编辑推荐)本研究开发了Stellarscope计算工具,通过贝叶斯混合模型(Bayesian mixture model)和期望最大化算法(EM algorithm),首次在单细胞RNA测序(scRNA-seq)中实现转座元件(TE)的位点特异性定量。该研究构建了人类外周血单个核细胞(PBMC)的TE表达图谱,发现特定人类内源性逆转录病毒(HERV)和LINE1(L1)转录本可标记免疫细胞亚群,其中浆细胞样树突状细胞(pDC)高表达HARLEQUIN-1q32.1等位点。该工具为研究TE在细胞分化和疾病中的功能提供了新范式。
Motivation
单细胞RNA测序(scRNA-seq)虽能高分辨率解析转录组,但占哺乳动物基因组大比例的转座元件(TE)常被忽视。这些重复序列因缺乏标准基因模型且存在多重比对困难,其表达量化面临技术挑战。Stellarscope应运而生——这款开源工具通过整合池化贝叶斯混合模型(pooled Bayesian mixture model),首次解决了单细胞数据中TE位点特异性表达的量化难题。
Highlights
• 创新性开发能定量scRNA-seq中TE位点表达的工具
• 发现特定HERV和L1转录本标记PBMC亚型
• TE差异表达可独立区分免疫细胞亚群
• pDC细胞特异性高表达HERV家族成员
Stellarscope设计精髓
该工具核心采用四步流程:1)基于细胞条形码(CB)和唯一分子标识符(UMI)的多重比对感知去重;2)构建考虑所有可能比对位置的权重矩阵;3)通过三种池化模式(单细胞/伪批量/细胞类型)拟合模型;4)基于后验概率重新分配读段。与scTE、soloTE等工具相比,Stellarscope的UMI计数估计更接近理论边界值,89.1%的细胞落在预期范围内。
PBMC中的逆转录转录组景观
在人类PBMC单细胞数据中,平均每个细胞检测到12个HERV和57个L1位点,占UMI总数的0.21%和1.05%。树突状细胞(DC)表现出最活跃的TE表达,其中浆细胞样DC(pDC)的HERV负载呈双峰分布,显著高于其他DC亚型(p < 2.2e-16)。引人注目的是,HARLEQUIN-1q32.1位点在pDC中的表达变化幅度(LFC=4.20)甚至超过经典标记基因TCF4(LFC=3.77)。
TE表达重塑细胞分类标准
通过对比不同特征组合的UMAP分析发现:仅用HERV特征虽不能完全区分CD4+/CD8+ T细胞,但能揭示标准mRNA表达谱未检测到的细胞亚群。莱顿聚类(Leiden algorithm)显示,HERV表达模式可定义新的NK细胞和B细胞亚群。33个高变异HERV亚家族中,HARLEQUIN和MER34B的残差方差(RV=3.34和1.49)最高,其位点特异性表达保留了亚家族水平的异质性。
跨组织TE表达谱
在GTEx项目的6种人体组织单核RNA-seq数据中,TE表达占比高达6%,呈现显著组织特异性:
• 乳腺组织C1细胞群高表达HERV3-7q11.21(达6% UMI)
• 前列腺组织C6细胞群特异性表达MER4家族成员
• 心脏组织C4亚群具有独特的TE表达特征
这种组织特异性模式提示TE可能参与维持细胞身份。
技术应用边界
研究同时揭示了技术局限性:5′端测序(5′GEX)因测序深度不足,仅检测到3′端测序(3′GEX)21个HERV标记中的3个。此外,当前TE注释仍依赖基因组坐标而非转录本模型,可能遗漏复杂剪接事件。作者建议结合长读长测序(如CELLO-seq)完善注释,以更准确解析TE功能。
Discussion
该研究突破了传统细胞分型依赖蛋白编码基因的局限,证明"基因组暗物质"TE能提供互补性生物信息。特别是pDC中HARLEQUIN-1q32.1位点与RHEX基因重叠区域的异常表达,暗示TE可能通过顺式调控影响免疫细胞功能。随着在发育、衰老和神经退行性疾病中TE作用的不断揭示,Stellarscope将为这些领域提供新的研究维度。
生物通微信公众号
知名企业招聘