精准解析乳腺癌细胞系 RNA-seq 数据变异的创新流程 —— 无需匹配正常样本的前沿探索

【字体: 时间:2025年02月16日 来源:BMC Research Notes 2.8

编辑推荐:

  为解决肿瘤细胞系缺乏匹配正常样本时变异检测的难题,Leibniz-Institute DSMZ 的研究人员开展乳腺癌细胞系 RNA-seq 数据变异检测研究。他们优化流程,精准筛选出肿瘤相关变异。该成果为乳腺癌研究提供新思路,强烈推荐科研人员阅读。

  
德国微生物和细胞培养物收藏中心(Leibniz-Institute DSMZ)的研究人员 Sonja Eberth、Julia Koblitz、Laura Steenpa? 和 Claudia Pommerenke 在《BMC Research Notes》期刊上发表了题为 “Refined variant calling pipeline on RNA?seq data of breast cancer cell lines without matched?normal samples” 的论文。这篇论文对于乳腺癌研究领域意义重大,它为在缺乏匹配正常样本的情况下,从乳腺癌细胞系的 RNA 测序(RNA-seq)数据中精准识别变异提供了新的方法和思路,有助于深入理解乳腺癌的发生发展机制,为开发新的治疗策略奠定基础。

研究背景


细胞系在研究复杂生物学过程和测试新药物疗效方面应用广泛,但细胞系的污染和错误鉴定问题频发,导致大量研究成本浪费和结果不可重复。在乳腺癌研究中,选择合适的体外模型时,需要考虑乳腺癌相关基因的突变情况,包括遗传的种系突变和体细胞突变,这些突变可能携带肿瘤驱动因素 。

通常,基因组测序数据可用于识别单核苷酸变异(SNVs)和小的插入缺失(InDels)。而 RNA 测序数据在进行转录谱分析时,也能提取表达基因上的变异,它还可作为诊断工具、用于细胞系鉴定或研究细胞系群体的遗传异质性。然而,细胞系常常缺乏匹配的正常样本,在这种情况下识别变异时,需要调整以排除常见的种系变异影响,否则会导致变异预测不可靠、有偏差且数量虚高。目前,基于 RNA-seq 的仅肿瘤样本的变异过滤方法仍有待优化。

研究方法


  • 细胞系和 RNA 测序:研究使用了德国微生物和细胞培养物收藏中心细胞系库中经过鉴定的 29 种人类乳腺癌细胞系。对这些细胞系进行 RNA 测序和分析,每个样本的文库大小在 3000 万 - 6000 万 150bp 的双端读数之间,平均映射读取长度约为 298bp。原始数据存储在 BioStudies(S-BSST1200)和 ArrayExpress(E-MTAB-14655)。
  • 变异检测流程:基于 RNA-seq 数据检测 SNVs 和小 InDels,研究对检测流程的过滤步骤进行了调整:添加了低复杂性区域(LCRs)过滤器;设置样本集中变异频率过滤为 20%;省略了 PolyPhen/Sift 过滤器。使用 GATK HaplotypeCaller(4.3.0)进行变异检测,过滤掉映射质量低于 20、读数深度小于 5 以及 35bp 窗口内有三个或更多变异的位点。利用 vcftools(0.1.16)和 SnpSift(5.1d)排除 RNA 编辑位点和 LCRs 区域的变异。通过 1000 Genomes 项目第三阶段、gnomAD r2.1.1 和 dbSNP v156 数据库过滤常见变异,并去除在超过 20% 样本中出现的变异。该流程可在 zenodo 和 github 上公开获取,变异数据存储在欧洲变异档案库(EVA,PRJEB82834)。
  • 变异评估:将提取的变异与 COSMIC 数据(v97)进行比较,分析流程的敏感性和特异性。还将过滤后的变异与 COSMIC 癌症基因普查(CGC)数据进行比对,利用 R 包 GenVisR(1.30.0)绘制瀑布图展示高突变基因。

研究结果


  • 变异检测:在 29 种无匹配正常样本的乳腺癌细胞系 RNA-seq 数据上进行变异检测,由于缺乏正常样本对照,初始检测到大量变异。通过映射质量和读数深度过滤低质量位点,变异数量减半;排除 RNA 编辑位点(占所有变异的 31 - 46%)和低复杂性区域(占 27 - 39%)的变异;利用 dbSNP 过滤常见变异,使变异数量降至初始的 5 - 9%。进一步排除多个数据库中的常见变异和蛋白编码区外的变异后,每个样本约剩下 1000 个变异。再通过对在超过 20% 细胞系中出现的变异进行过滤,变异数量又减少了 17 - 33%,最终每个样本剩余 0.2 - 0.6% 的变异,数量在 644 - 1384 之间。随着每一步过滤,文库大小与检测到的变异之间的相关性逐渐减弱。
  • 变异评估:研究选取了 COSMIC 数据库中 10 种经鉴定的源自德国微生物和细胞培养物收藏中心的乳腺癌细胞系进行评估,以其中 353 个基因中的 400 个已验证 COSMIC 变异为基础进行比较。研究流程检测到了其中 188 个变异,随着过滤步骤增加,特异性提高但敏感性不变。大多数未检测到的变异是由于读数深度低(<5),部分是因为位于 LCRs 区域。研究流程还检测到了 COSMIC 癌症基因普查(CGC)中 7 种乳腺癌细胞系里 PIK3CA、PTEN、APC 和 TP53 基因的 10 个变异。对变异进行可视化分析发现,肿瘤抑制基因 TP53 变异数量最多,其次是 PIK3CA 和 BRCA2,变异主要为错义突变。

研究结论与讨论


研究开发了一种针对无匹配正常样本的乳腺癌细胞系 RNA-seq 数据的变异检测流程,通过一系列过滤步骤,有效减少了变异数量,且检测到了关键的癌症相关变异。虽然 RNA-seq 存在组织特异性变异、覆盖深度、等位基因缺失、RNA 编辑和测序假象等问题,但通过调整过滤步骤可以解决部分问题。而且 RNA-seq 具有转录组学和遗传变异分析的双重优势,其检测的肿瘤突变负荷(TMB)与基因组数据检测结果相似。

不过,该研究也存在一些局限性。例如,可能会忽略某些特定人群中高频出现的相关变异;未考虑拷贝数改变、异常合子性等因素;对于特定数据集和癌症类型需要手动调整;无法像全外显子测序(WES)/ 全基因组测序(WGS)那样解决等位基因缺失和低表达基因的问题。

尽管如此,该研究的意义不可忽视。它为研究乳腺癌的遗传变异提供了新的方法,结合已鉴定的细胞系和分子特征,为研究乳腺癌和开发新疗法提供了全面而新颖的见解。同时,该研究的流程和数据为后续相关研究奠定了基础,有助于推动乳腺癌研究领域的进一步发展。未来的研究可以在此基础上,进一步优化变异检测流程,纳入更多影响因素,提高检测的准确性和全面性,为乳腺癌的精准治疗提供更有力的支持。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号