单细胞转录组中长链非编码RNA检测新突破:Singletrome工具增强lncRNA鉴定与功能解析

【字体: 时间:2025年08月14日 来源:Scientific Reports 3.9

编辑推荐:

  本研究针对单细胞RNA测序(scRNA-seq)中长链非编码RNA(lncRNA)注释不足的问题,开发了Singletrome分析框架。通过整合GENCODE蛋白编码基因与LncExpDB的lncRNA注释,建立TLGA/ULGA双重过滤系统,解决了lncRNA与蛋白编码基因的正义/反义链重叠导致的计数偏差。在PBMC和肝脏单细胞数据中实现lncRNA检测量提升5倍,首次证明仅用lncRNA表达即可高精度预测细胞类型(准确率90.3%)和肝纤维化状态(AUC 93.7%),为构建人类lncRNA图谱奠定基础。

  

在生命科学领域,长链非编码RNA(lncRNA)正成为基因调控网络的"暗物质"。这些长度超过200个核苷酸、不编码蛋白质的RNA分子,已被证明在癌症1、免疫2和肝脏疾病3等病理过程中发挥关键作用。然而,当前单细胞RNA测序(scRNA-seq)研究主要聚焦于蛋白编码基因,对lncRNA的探索严重不足。这种局限性主要源于两个技术瓶颈:现有参考注释(如GENCODE v32)仅包含16,849个lncRNA基因,远低于LncExpDB等数据库记录的100,000余个;更重要的是,lncRNA与蛋白编码基因在正义链和反义链上的广泛重叠,使得传统分析方法难以准确分配测序读数。

为突破这些限制,美国麻省总医院(Massachusetts General Hospital)的Raza Ur Rahman和Alan C Mullen团队开发了Singletrome分析平台。这项发表在《Scientific Reports》的研究通过创建三重创新解决方案:1)整合GENCODE蛋白编码基因与LncExpDB的lncRNA注释;2)开发TLGA(trimmed lncRNA genome annotation)过滤系统消除反义链重叠区域的计数干扰;3)建立5'端偏好性和单峰分布质控标准,成功将人类lncRNA检测灵敏度提升5倍以上。研究人员分析了来自外周血单核细胞(PBMC)和肝脏的26个样本、总计8.07亿条测序读数,证明新注释能检测GENCODE遗漏的数千个lncRNA,且仅用lncRNA表达谱就能实现90.3%的细胞类型分类准确率。

关键技术方法包括:1)使用Singularity容器整合GTF格式的蛋白编码基因与lncRNA注释;2)通过BEDTools分析外显子重叠区域,建立TLGA/ULGA双重注释系统;3)应用改良版RSeQC进行转录本覆盖度分析,过滤5'偏好性(>50%读数位于前10%区域)和单峰分布(单一非3'端区域读数占比>50%)的异常转录本;4)采用XGBoost机器学习模型评估lncRNA对细胞类型和疾病状态的预测能力。

【Expanding lncRNA annotations in single cell analysis】

研究团队首先系统分析了GENCODE v32与LncExpDB v2的基因组注释重叠情况。结果显示:6,309个蛋白编码基因与7,531个lncRNA存在正义链重叠,10,492个蛋白编码基因与14,212个lncRNA存在反义链重叠。通过创建TLGA注释(去除正义链重叠lncRNA,并对反义链重叠区域进行100nt缓冲修剪),最终构建包含110,599个基因(19,384个蛋白编码基因+91,215个lncRNA)的综合注释体系,使lncRNA外显子、转录本和基因的注释量分别提升4.93倍、6.46倍和5.41倍。

【Maximizing reads mapped to lncRNAs for downstream analysis】

在PBMC和两个肝脏数据集(GSE115469、GSE136103)中的对比显示,TLGA虽减少了约18.4%的lncRNA读数(PBMC中位数从174降至142),但显著提高了数据可靠性。典型案例如HSALNG0137471(与DDX3X反义重叠),TLGA仅保留非重叠区域的可靠信号,而ULGA则补充了3'端读数,为功能研究提供更完整信息。

【Quality control of lncRNA mapping】

通过改良的RSeQC分析发现,lncRNA转录本存在显著5'端富集现象(1000-3000nt转录本中前10%区域读数占比超50%),且基因长度与转录本长度的相关性(R=0.35)远低于蛋白编码基因(R=0.82)。据此建立的质控标准在PBMC数据中过滤掉433个(5'偏好性)和67个(单峰分布)低质量lncRNA基因,最终保留23,510个高置信度lncRNA。

【lncRNAs alone predict most clusters and cell types in single cell data】

仅使用lncRNA表达谱时,Singletrome注释在PBMC中产生16个细胞簇(调整兰德指数ARI=0.5),显著优于GENCODE注释的10个簇(ARI=0.3)。XGBoost模型显示,lncRNA单独预测PBMC细胞类型的准确率达90.3%,接近蛋白编码基因的96.4%。在肝脏数据中,lncRNA对肝窦内皮细胞(LSEC)等特殊亚型的区分能力尤为突出。

【Long noncoding RNAs in liver fibrosis】

在肝硬化单细胞数据分析中,研究者鉴定出937个差异表达lncRNA(padj<0.1),包括已知促纤维化因子H19和MEG3,以及GENCODE未注释的新lncRNA如HSALNG0146932(间质细胞)和HSALNG0061639(胆管细胞)。仅基于lncRNA表达的肝硬化预测模型达到93.7%准确率,证实lncRNA可作为疾病诊断的新型分子标志物。

这项研究通过创新的生物信息学框架,首次系统解决了单细胞数据中lncRNA注释与分析的三大核心挑战:注释不全、链特异性干扰和低表达噪声。Singletrome平台不仅使lncRNA检测灵敏度提升5倍,更开创性地证明lncRNA表达谱具有独立界定细胞类型和疾病状态的生物学意义。特别值得注意的是,在肝硬化研究中发现的新lncRNA如HSALNG0146932,为理解器官纤维化提供了全新分子视角。该工具的可扩展性(支持任意GTF格式注释)使其可广泛应用于不同物种研究,为构建人类细胞图谱中的lncRNA维度奠定技术基础。随着单细胞数据的持续积累,这种整合计算生物学与实验验证的研究范式,将加速揭示lncRNA在生理病理过程中的精确调控机制。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号