“CRISPR 损失性压缩” 助力基因组规模功能研究:开启低成本、高扩展性新征程

《BMC Bioinformatics》:goloco: a web application to create genome scale information from surprisingly small experiments

【字体: 时间:2025年02月26日 来源:BMC Bioinformatics 2.9

编辑推荐:

  为解决 CRISPR 筛选实验可扩展性受限问题,研究人员提出 “CRISPR 损失性压缩” 方法,开发 goloco 工具,降低实验成本与复杂度,推动大规模功能基因组学研究。

  

一、研究背景

在生命科学的探索中,了解基因的功能一直是核心任务。功能基因组学(Functional genomics)致力于通过各种手段解读基因功能,其中 CRISPR 技术的出现,为研究基因功能带来了新的曙光。利用 CRISPR 技术,科研人员能够有针对性地敲除特定基因,观察细胞发生的变化,进而推断基因的功能。然而,目前基于 CRISPR 技术的实验却面临着一个重大挑战 —— 可扩展性受限。
在全面的 CRISPR 筛选实验中,往往需要使用数百万个细胞和数千个单导向 RNA(sgRNA) ,这使得实验的规模和成本急剧增加。以一个普通的哺乳动物生长调节实验为例,在单一实验条件下,就需要约 80,000 个独特的 sgRNA 和约 8000 万个细胞。如此庞大的资源需求,使得大规模的功能基因组学研究变得异常艰难,许多重要的实验因资源限制而无法开展。
为了突破这一瓶颈,来自相关研究机构的科研人员开展了一项极具创新性的研究,旨在寻找一种新的方法,既能降低 CRISPR 筛选实验的复杂度,又能实现基因组规模的功能研究,“CRISPR 损失性压缩”(CRISPR lossy compression)这一概念应运而生。这项研究成果发表在BMC Bioinformatics期刊上。

二、研究方法

研究人员开发了一种名为 goloco 的交互式网络应用程序。该应用采用了独特的三节点架构:Dash 前端服务器负责接收用户请求,处理交互式可视化和导航;Celery 后端工作器执行推理任务;Redis 键值存储则用于管理前端和后端之间的通信。
在数据方面,goloco 使用了 Broad Institute 进行的全基因组 CRISPR 筛选数据,这些数据可在 Dependency Map(DepMap)门户网站上公开下载。研究人员采用 19Q4 版本的 CRISPR 基因效应数据库,该数据库中的基因效应分数以 CERES(Cell viability and Essentiality Estimation through Regression on sample Specific copy number)分数表示,它通过将所有常见必需基因的平均值定义为 -1,所有常见非必需基因的平均值定义为 0,并对拷贝数变异进行调整,来衡量生长调节的 Log?倍变化。
为了进行基因效应预测,研究人员利用了数千个随机森林模型(Random Forest Models)。在计算预测结果的显著性时,会计算 Z 分数(Z - score)和 P 值(P - value)。此外,研究人员还运用了 Louvain 方法构建基因网络社区,通过 PHATE 降维技术和 k - 均值聚类分析不同细胞系对基因网络的利用表型。

三、研究结果

(一)goloco 应用功能强大

goloco 应用程序允许用户直接使用压缩列表(如 200 个基因的列表)的分数进行全基因组推断。用户还能上传 CRISPR 实验的原始基因计数数据,将其转换为 CHRONOS 分数以校正实验假象。整个分析过程无需用户具备编程知识,任务完成后,结果会在应用程序内呈现,并提供交互式会话,方便用户进行后续分析,且会话可下载保存,以便日后重新加载。

(二)多种可视化分析

该工具提供了多种可视化分析方式。火山图(Volcano plot)可展示预测分数与 P 值的关系,突出显示显著预测结果;通过将预测分数按 Z 分数的极端程度排序,并与该基因在所有其他 DepMap 细胞系中的小提琴图对比,能直观呈现基因特征。在功能富集分析方面,用户可直接在网络应用程序上使用 gProfiler2 对火山图和 Z 分数图中的 “命中” 基因进行分析,获得曼哈顿图(Manhattan plot)和基因本体论(GO)术语的功能富集分数表。

(三)基因关系分析

用户能够对感兴趣的基因进行单基因和多基因成对比较,并进行线性回归分析。在 “Explore> Regressions” 页面,用户选择特定 Louvain 社区内的基因,可可视化网络基因中相关的遗传依赖关系,将用户实验中预测的基因效应成对比较结果与 DepMap 19Q4 数据中所有细胞系测量效应的背景回归进行叠加,从而对比预测相关性。

(四)社区与聚类分析

研究人员利用 Louvain 方法开发了 200 个 Louvain 社区,通过对每个社区进行分析,使用 PHATE 降维后进行 k - 均值聚类,为每个网络确定了七个聚类,每个聚类代表一种网络利用表型。同时,还在其他降维技术(如 PCA、UMAP 和 tSNE)上可视化这些聚类,并使用半监督方法生成每个聚类中基因的重要性排名列表,以确定定义每个聚类的最重要基因。

四、研究结论与讨论

研究人员开发的 “CRISPR 损失性压缩” 方法及 goloco 工具,为大规模功能基因组学研究提供了新的解决方案。该方法通过聚焦关键遗传节点,构建包含 100 - 1000 个基因的压缩集,大大降低了 CRISPR 筛选实验的规模和成本,使之前因资源限制无法开展的全基因组规模研究成为可能。
然而,这种方法也存在一定的局限性。由于压缩集中存在信息损失,可能会遗漏一些微妙的基因功能或特定背景下的基因效应。此外,部分基因在单独敲除时可能确实难以观察到明显效果,这也会影响预测的准确性。但随着数据的不断积累,预测的准确性有望提高。
总体而言,“CRISPR 损失性压缩” 方法具有巨大的潜力。它不仅能够帮助科研人员在低成本下探索基因组功能,还能为研究新型药物靶点、促进合理药物设计等提供有价值的信息,推动生命科学和健康医学领域的进一步发展。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号