解码人外周血单个核细胞(PBMC) Isonome:利用单细胞长读长转录组学解析异构体(Isoform)水平分辨率

《Frontiers in Genetics》:Decoding the human PBMC isonome: isoform-level resolution with single-cell long-read transcriptomics

【字体: 时间:2026年05月28日 来源:Frontiers in Genetics 2.8

编辑推荐:

  长读长单细胞RNA测序(single-cell long-read RNA-seq,scLR-seq)为在短读长或批量测序难以达到的分辨率下理解人类健康与疾病提供了契机。该方法使研究人员能够在细胞多样性与疾病机制研究中开展异构体(isoform)水平的免疫细胞

  
长读长单细胞RNA测序(single-cell long-read RNA-seq,scLR-seq)为在短读长或批量测序难以达到的分辨率下理解人类健康与疾病提供了契机。该方法使研究人员能够在细胞多样性与疾病机制研究中开展异构体(isoform)水平的免疫细胞的调查及细胞类型定义,而非仅依赖基因水平。研究人员采用改良的微流控-free PIPseq流程及适配Oxford Nanopore长读长测序的计算管线,构建了迄今来自单一供体最大的人外周血单个核细胞(peripheral blood mononuclear cells,PBMCs)长读长单细胞数据集,也是首个细胞数足够检测到巨核细胞的此类数据集。本研究剖析了各免疫细胞类型的异构体使用情况,整合了标记基因表达与异构体发现。研究人员从已知及新基因中鉴定出126个新型异构体,其中数个具有显著的细胞类型特异性模式,并表征了标记基因在各细胞类型中的异构体表达。GZMB和CD3G的非经典蛋白编码变体在意外细胞类型(包括巨核细胞和单核细胞来源群体)中富集。研究人员还发现CMC1和LYAR来源的新型转录本具有细胞类型特异性特征,且为该基因内主导表达的转录本。本研究拓展了长读长单细胞研究的应用范畴——不仅能反映异构体特征的变化,还能将其定位于所影响的生物学功能背景中。结果表明,长读长单细胞测序在绘制跨组织与疾病背景下的异构体全景——即isonome——方面具有强大潜力。
论文解读:《Decoding the human PBMC isonome: isoform-level resolution with single-cell long-read transcriptomics》
一、研究背景与立项依据
传统短读长单细胞RNA测序(single-cell RNA-seq,scRNA-seq)虽能以基因水平解析细胞异质性,但因读长限制无法区分同一基因的不同剪切异构体(isoform),而约85%的人类蛋白编码基因存在可变剪接(alternative splicing),异构体差异直接影响蛋白结构与功能。批量长读长测序可发现新异构体但丢失细胞类型信息。将长读长技术与scRNA-seq结合可获得细胞类型特异性的异构体表达图谱(即isonome,"异构体组"),但目前此类研究多依赖微滴平台(如10X Genomics)且细胞捕获数有限,缺乏适用于无微流控(microfluidic-free)平台且细胞数足够多以检测稀有免疫细胞(如循环巨核细胞)的人外周血单个核细胞(peripheral blood mononuclear cells,PBMCs)数据集。为此,研究人员改良了Fluent Biosciences PIPseq V4.0PLUS 3′ scRNA-seq试剂盒流程适配Oxford Nanopore Technologies(ONT)长读长测序,并开发配套生物信息学管线以解码人PBMC的isonome。该论文发表于《Frontiers in Genetics》。
二、主要关键技术方法
研究人员采集一名健康男性供体外周血,Ficoll法分离PBMCs,加载60,000细胞/重复(目标捕获30,000细胞,估算50%捕获率)。主要技术包括:(1) 改良PIPseq T20 3′ scRNA-seq流程——改用宽口吸头、避免涡旋以减少cDNA剪切,引入自定义寡核苷酸桥接PIPseq全转录组扩增(Whole Transcriptome Amplification,WTA)引物与ONT cDNA引物(cPRM),经生物素介导片段大小筛选建库;(2) ONT PromethION平台R10芯片测序(SQK-PCS114试剂盒),Dorado basecalling;(3) 生信流程——pychopper全长校正,基于Levenshtein距离(非仅Hamming距离)的条码(barcode)挽救与伪双端读段生成,PIPseeker解复用,minimap2比对GRCh38,Bambu(v3.8.1)基于Ensembl 113注释做异构体发现与新转录本鉴定(新发现率NDR=0.051),AutoZI(autoZeroInflated—零膨胀负二项分布模型)校正单细胞零膨胀,Leiden算法聚类,SoupX评估环境RNA污染,InterProScan/AlphaFold2/CDD预测异构体编码蛋白结构域差异。设两个技术重复各测3张PromethION流通池。
三、研究结果
Adapted PIPseq protocol enables bench-top long-read single-cell sequencing(改良PIPseq流程可实现台式长读长单细胞测序)
研究人员通过减少剪切力(宽口吸头、轻柔混合)及引入桥接寡核苷酸连接PIPseq条形码cDNA与ONT接头,成功获得高质量长读长scRNA-seq数据。两重复原始读段分别为275.8M和216M,质控过滤比对后得121.8M和80.0M条读段,N50~659–665 nt,中位数读长~477–501 nt,最终经严格过滤获PBMC1 11,352个细胞、PBMC2 21,666个细胞。证明微流控-free PIPseq可适配ONT长读长并获得大细胞数PBMC数据集,首次在该类数据中明确鉴定巨核细胞。
Bulk-level characterization reveals isoform expression landscape in PBMCs(批量水平表征揭示PBMC异构体表达谱)
合并两样本做新异构体发现,Bambu鉴定出126个新异构体(59个来自已知基因、67个来自未注释新基因座),其中16个曾被其他长读长研究独立报道,7个预测具蛋白编码潜能。已知基因的新异构体中位长453 nt,多数含2个外显子;新基因座的新异构体中位506 nt。50.6%的基因表达≥5种异构体,15.5%表达≥10种。表明PBMC中存在丰富的未注释异构体多样性,部分为新基因座来源且具有细胞类型特异性潜力。
Canonical marker genes exhibit high isoform diversity in PBMC single-cell data(经典标记基因在PBMC单细胞数据中呈现高异构体多样性)
经AutoZI去零膨胀与Leiden聚类,鉴定五大免疫细胞类群:T细胞(74.98%)、NK细胞(14.00%)、B细胞(6.76%)、单核细胞来源细胞(4.06%)、巨核细胞(0.21%,以GP1BA、ITGA2B、MPL为标记)。19个经典标记基因中15个表达多异构体(半数≥5种),三个标记基因(CD3G、GZMB)的非经典异构体在巨核细胞中相对富集——CD3G替代蛋白编码异构体(ENST00000392883)和GZMB截短异构体(ENST000005260004)在巨核细胞中信号高于其他类型。说明仅凭基因水平无法捕捉细胞类型特异性的异构体使用偏好。
Cell-type-specific isoforms of CD3G and GZMB suggest functional divergence or loss of function of non-canonical proteins from canonical functions(CD3G与GZMB的细胞类型特异性异构体暗示非经典蛋白与经典功能存在功能分化或功能缺失)
CD3G经典异构体(CD3G-206, ENST00000532917)含跨膜域与ITAM基序定位于T细胞受体复合物;巨核细胞富集的CD3G-202(ENST00000392883)缺失第4外显子致跨膜域与ITAM胞内定位丧失但保留信号肽,DeepTMHMM与AlphaFold2预测其为分泌型,可能作为诱饵或具调控功能。GZMB经典异构体(GZMB-201, ENST00000216341)含完整催化三联体(His59/Asp103/Ser198);巨核细胞富集的GZMB-204(ENST000005260004)缺失外显子4–5致Asp103与Ser198丢失,催化三联体不完整,预计蛋白酶活性丧失但仍可分泌。SoupX校正后CD3G在巨核细胞信号仍存(GZMB靠AutoZI推断需谨慎解读),排除完全由环境RNA污染导致。此例说明异构体水平分析对理解免疫分子功能至关重要。
T cell subtype characterization demonstrates subtype-dependent alternative splicing and isoform usage(T细胞亚型表征显示可变剪接受细胞亚型调控及异构体使用偏好)
对T细胞亚聚(resolution=0.26)鉴定效应CD8+T、效应CD4+T与记忆T细胞及一过渡态效应-记忆T细胞群(表达IL2RA/CTLA4与TCF7/LEF1)。CD8B经典异构体(CD8B-203)与近同蛋白编码非经典异构体(CD8B-206, ENST00000431506,胞质尾单氨基酸差异F→L)在记忆T细胞相对高表达,后者完全缺失3′UTR可能增强mRNA稳定性——此3′UTR差异仅在异构体水平可见。过渡态T细胞标记基因(如IL2RA、LEF1、ITGAE)倾向于仅高表达1–2种特定异构体(含保留内含子型),反映该状态具特异位点剪接调控。记忆T细胞还富集CD3D两大非编码异构体。证明同种基因不同T细胞亚型存在异构体使用差异。
New isoforms exhibit distinct cell-type specificity in expression and structural changes from known isoforms(新异构体展现与已知异构体不同的细胞类型特异性表达与结构改变)
新异构体经Z-score热图聚类显示部分富集于特定免疫细胞(NK、巨核细胞、B细胞、单核细胞、过渡态T细胞)。26个已知基因中新异构体为最主要表达变异体,如CMC1新异构体BambuTx79(缺失外显子1、截短外显子4)在CD8+T与NK细胞中特异富集,而其它CMC1异构体广泛表达;LYAR新异构体BambuTx88具独特第8外显子构型,与已知异构体共表达于效应CD8+T与NK细胞且为基因内高表达变异体。表明新异构体可为某基因的主导转录本并具有明确细胞类型偏向。
四、讨论与结论总结
研究人员指出长读长scRNA-seq揭示了传统基因水平分析忽略的异构体多样性——多数免疫标记基因共表达多种异构体且最丰富异构体常非注释"经典"转录本;巨核细胞中GZMB截短型与CD3G分泌型异构体的发现提示非经典异构体可能具免疫调节或诱饵功能;CD8B的3′UTR缺失异构体说明即便编码相同蛋白的异构体因UTR差异可具细胞类型特异性调控意义。局限性包括单细胞长读长深度不足致零膨胀需建模校正、单供体无法评估个体间差异、部分新异构体需实验验证是否内部引物引发 artifact。未来建议降低靶细胞数以提升每细胞读深或增加流通池。
研究结论翻译:研究人员通过改良微流控-free PIPseq流程与定制计算管线,建立了迄今单一供体最大的人PBMC长读长单细胞转录组数据集,发现126个新异构体(部分具细胞类型特异性且为基因内主导转录本),揭示经典免疫标记基因(CD3G、GZMB、CD8B等)存在细胞类型依赖的异构体使用及结构功能分化(分泌型CD3G、无催化活性GZMB、无3′UTR CD8B),证明长读长单细胞测序可解析isonome并关联异构体结构与潜在蛋白功能差异,为跨组织与疾病背景下异构体水平免疫学研究提供可复现框架。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号