基于RNA-seq序列变异的细胞系鉴定新方法:topFracCCLE算法的开发与应用
《Computational and Structural Biotechnology Journal》:RNA-seq-derived sequence variations are excellent features for cell line identification
【字体:
大
中
小
】
时间:2025年11月01日
来源:Computational and Structural Biotechnology Journal 4.1
编辑推荐:
本研究针对细胞系错误注释和交叉污染严重影响科研可重复性的问题,开发了基于RNA测序(RNA-seq)衍生序列变异信息的细胞系鉴定新方法。研究人员利用无监督聚类和k-近邻(kNN)分类器,证明了RNA-seq变异特征可实现细胞系特异性聚类,准确率高达100%。创新性地提出topFracCCLE算法,不仅能精准识别1700余种人源细胞系,还可检测低至25%的细胞交叉污染。该方法不依赖特定数据预处理流程,为利用常规RNA-seq数据同步完成细胞身份验证提供了经济高效的解决方案,对保障生物医学研究可靠性具有重要意义。
在生物医学研究领域,细胞系作为疾病建模和药物筛选的关键工具,其正确身份认证一直是确保实验结果可重复性的基石。然而令人担忧的是,目前高达36%的细胞系存在错误标记或交叉污染问题,这种"身份危机"导致大量研究结论存在偏差,每年造成巨额科研经费的浪费。尽管短串联重复序列(STR)分析被作为细胞系鉴定的金标准,但该方法存在明显局限:STR profiling只能验证送检样本的身份,无法保证后续实验中使用的细胞未被污染或混淆。随着RNA测序(RNA-seq)技术的普及,研究人员开始思考:能否从常规转录组数据中挖掘出细胞"身份证"信息?
德国马丁·路德大学哈勒-维滕贝格分校的Lisa Müller和Markus Gla?团队在《Computational and Structural Biotechnology Journal》发表的最新研究,给出了令人振奋的解决方案。他们发现RNA-seq数据中蕴含的序列变异信息如同细胞的"遗传指纹",能够准确区分不同细胞系的身份。这项研究不仅系统验证了RNA-seq变异特征用于细胞系鉴定的可行性,更开发出名为topFracCCLE的创新算法,为科研工作者提供了一种可与常规转录组分析同步进行的细胞身份验证新范式。
关键技术方法方面,研究团队建立了包含90个polyA富集RNA-seq样本的数据集,涵盖22种细胞系。采用标准生物信息流程:使用Cutadapt去除接头序列,HiSat2/Bowtie2进行序列比对,bcftools进行变异检测,并通过Jaccard距离进行层次聚类分析。利用癌症细胞系百科全书(CCLE)数据库的1771种细胞系单核苷酸多态性(SNP)数据构建参考数据集,开发了基于SNP匹配分数的topFracCCLE分类算法。通过体外混合细胞实验和计算机模拟污染实验,系统验证了方法的灵敏度。
通过对22种细胞系的90个样本进行分析,研究人员发现即使去除样本特异性变异,仅保留共享变异特征,层次聚类仍能完美区分不同细胞系。值得注意的是,该方法对测序深度要求较低,仅50万条reads即可实现准确聚类,远低于常规RNA-seq的数据量。特别有趣的是,即使使用small RNA-seq数据,虽然检测到的变异数量较少,但仍能有效区分不同细胞系,不过仅限于miRNA区域的变异则不足以实现准确聚类。
研究团队构建了kNN分类器,通过三重交叉验证展示了100%的预测准确率。在外部验证集(ENCODE项目数据)测试中,无论是polyA富集样本还是total RNA样本,所有细胞系身份均被正确预测,证明了方法的强泛化能力。
面对CCLE数据库中细胞系缺乏重复样本的挑战,研究人员创新性地提出了topFracCCLE算法。该算法通过计算查询样本与数据库中各细胞系SNP的匹配比例进行鉴定。在54个内部样本和25个公共数据集样本的测试中,该方法表现出色。特别值得注意的是,当某些样本被预测为衍生细胞系时(如MCF-7被预测为KPL-1),进一步查阅数据库发现这些"错误"预测实际上反映了细胞系间的衍生关系,反而证明了方法的敏感性。
通过体外细胞混合实验和计算机模拟,研究证明topFracCCLE能够可靠检测出污染比例低至25%的细胞混合情况。与STR分析相比,该方法不仅能识别污染存在,还能通过SNP检测比例对污染程度进行半定量评估,这是STR分析无法实现的优势。
研究结论与讨论部分强调,这项工作系统证明了RNA-seq衍生序列变异在细胞系鉴定中的巨大价值。相较于传统STR分析,该方法具有显著优势:可直接对实际用于测序的样本进行鉴定,无需额外实验成本,且能提供污染程度的量化参考。虽然RNA编辑等转录后修饰可能带来干扰,但本研究通过大量实证表明这种影响在实践层面可控。topFracCCLE算法的开源发布为领域提供了实用工具,其模块化设计也允许未来整合更完善的参考数据库。这项研究为利用常规组学数据同步完成质量控制开辟了新途径,对提升生物医学研究可重复性具有重要推动作用。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号