scGFT:单细胞 RNA 测序数据增强的创新利器

【字体: 时间:2025年01月23日 来源:Communications Biology 5.2

编辑推荐:

  单细胞 RNA 测序(scRNA-seq)在研究中意义重大,但数据稀缺问题突出。研究人员开展了单细胞生成傅里叶变换器(scGFT)的研究。结果显示 scGFT 能有效合成细胞、增强数据。这为单细胞研究提供了新方法,推动相关领域发展。

  在生命科学研究的微观世界里,单细胞 RNA 测序(scRNA-seq)宛如一把神奇的钥匙,为我们打开了探索细胞复杂性和异质性的大门。通过它,科学家们能够深入到单个细胞的层面,剖析其基因表达的奥秘,这对于理解疾病机制、开发精准治疗方案至关重要。然而,这把钥匙却面临着一个棘手的难题 —— 数据稀缺。在研究罕见疾病、特殊组织和稀有细胞类型时,获取足够数量的细胞样本变得异常困难。高昂的实验成本、严格的伦理限制,都使得样本数量捉襟见肘,就像在茫茫大海中寻找珍贵的宝藏,却只有寥寥无几的线索。同时,现有的基于深度学习的生成模型(GMs)在解决数据稀缺问题时也陷入了困境。它们往往依赖于预训练或微调,可这又恰恰受制于有限的样本数据,就像陷入了一个恶性循环,难以真正突破数据的瓶颈。
为了打破这一僵局,来自赛诺菲(Sanofi)的研究人员挺身而出,展开了一项极具创新性的研究。他们致力于开发一种全新的方法,以解决 scRNA-seq 数据稀缺的难题。经过不懈努力,他们成功推出了单细胞生成傅里叶变换器(scGFT),这一成果发表在《Communications Biology》杂志上,引起了科学界的广泛关注。

研究人员在开展这项研究时,运用了多种关键技术方法。首先是离散傅里叶变换(DFT)和逆傅里叶变换(IFT),通过这两种变换,将细胞基因表达谱在复杂空间和原始基因表达空间之间进行转换。其次,在数据处理方面,利用了标准化、筛选可变基因等常规的 scRNA-seq 数据处理手段。此外,还采用了聚类分析、最大平均差异(MMD)等评估方法,来验证 scGFT 合成细胞的质量。在实验过程中,使用了模拟数据和来自原发性小气道上皮细胞(SAECs)等真实实验数据。

下面让我们深入了解一下这项研究的主要结果:

  • scGFT 在模拟数据合成中保持细胞身份:研究人员利用 Splatter R 包生成不同规模和复杂度的模拟 scRNA-seq 数据集,每个数据集包含不同数量的细胞和聚类。通过 scGFT 对这些数据集中的细胞进行合成,改变不同数量的复杂成分(CCs)。结果发现,合成细胞与原始细胞聚类的准确率极高,超过 92%,在所有修改成分数量和模拟数据中的平均准确率更是高达 97% 以上。同时,计算合成细胞与原始细胞的 MMD 分数,结果显示分数始终低于 10?3 ,表明两者分布相似且存在细微差异,这意味着 scGFT 能够在保持原始细胞关键特征的同时,引入适度变化。随着修改的 CCs 数量增加,虽然合成细胞与原始细胞的偏差会增大,但这也符合 scGFT 的理论基础,证明了其引入的变化是可控的。
  • scGFT 增强实验 scRNA-seq 数据并保持细胞固有特性:研究人员使用来自原发性小气道上皮细胞(SAECs)的实验数据,这些细胞来自健康个体和慢性阻塞性肺疾病(COPD)患者。scGFT 以不同的扩展系数(1×、2×、3×)合成新细胞,并修改不同数量的 CCs。通过 UMAP 可视化和聚类分析发现,合成细胞与原始细胞有大量重叠,聚类准确率超过 92%,平均达到 94% 以上。计算合成细胞与原始细胞的 MMD 分数,同样低于 10?3 ,且差异具有统计学意义,说明合成细胞在整体结构上与原始细胞相似,同时保留了细微差异。在对高变基因的分析中,发现原始数据和合成数据中前 2000 个高变基因的平均重叠率达到 94 ± 0.7%,证明 scGFT 能够有效保留原始细胞的内在变异性。在细胞类型注释方面,利用 Sargent 方法进行评估,结果显示合成细胞和原始细胞在细胞类型标注上的一致性超过 95%,平均达到 96% 以上。此外,合成数据的稀疏性略低于原始数据,且在不同修改成分数量和扩展系数下趋势相似,表明 scGFT 在合成过程中没有过度去噪或插补数据,保持了基因表达数据的完整性。
  • scGFT 在关键性能指标上优于神经网络生成模型:研究人员将 scGFT 与三种基于神经网络的生成模型(scGAN、scDiffusion、scVI)进行对比。在对 PRJEB44878 数据集的分析中,通过 UMAP 定性评估发现,虽然 scGAN、scDiffusion 和 scVI 合成的细胞与原始细胞都有较好的重叠,但定量评估显示,scGFT 合成细胞的保真度更高,相比之下,scGAN 合成细胞的保真度平均低约 11%,scDiffusion 和 scVI 合成细胞的保真度平均低约 9%。在分析合成细胞与原始高变基因的重叠情况时,scGFT 表现更优,scGAN、scDiffusion 和 scVI 合成细胞与原始高变基因的重叠率分别平均低约 30%、36% 和 20%。在数据稀疏性方面,scGAN 和 scVI 分别增加了 5% 和 1% 的稀疏性,scDiffusion 和 scGFT 的插补率分别约为 14% 和 2%。在计算性能上,scGFT 的优势更为明显。在模拟数据合成中,合成 50000 个细胞的时间随着原始数据规模和修改 CCs 数量的增加而适度增加;在实验数据合成中,合成时间与合成细胞数量和修改 CCs 数量相关。而 scDiffusion 训练需要约 40 小时,scGAN 需要约 20 小时,scVI 需要约 0.6 小时,相比之下,scGFT 作为一种分析性解决方案且无需训练,计算效率极高。
  • scGFT 从单个细胞基因表达谱合成独特细胞群体:针对 scRNA-seq 数据中分析罕见细胞类型的难题,研究人员以 PRJEB44878 实验数据中的罕见上皮亚型细胞为例,如 SCGB3A2 俱乐部细胞、MMP7 异常基底样细胞、GRP 肺神经内分泌细胞(PNECs)和 FOXI1 离子细胞,这些细胞在群体中占比均小于 0.3%。从每个群体中随机选择一个细胞,通过 scGFT 修改 100 个 CCs 并合成 5000 个细胞。结果显示,scGFT 成功生成了离散的细胞群体,且合成细胞与原始细胞在细胞类型标注上的准确率超过 98%。虽然在 UMAP 表示中合成细胞呈现出拉长的形状,但这恰恰体现了 scGFT 能仅从单个细胞的表达谱合成独特细胞群体的能力,这是当前其他生成方法所无法比拟的。
  • scGFT 保留细胞网络结构的核心特征:研究人员利用 GSE178360 数据集,该数据集包含来自健康肺远端气道的 7160 个处理过的细胞。以纤毛细胞类型为例,通过 scGFT 以 1× 的比例修改 10 个复杂成分生成合成细胞。然后,从原始细胞和合成细胞中随机抽取 1000 个细胞,分别推断它们的基因 - 基因网络,并使用 Jaccard 指数量化网络的相似性。经过 1000 次重复实验,结果显示平均相似性达到 81 ± 0.1%,这表明 scGFT 合成过程能够在很大程度上保留原始群体中基因 - 基因的关系,为生成具有生物学合理性的合成细胞提供了有力支持,也为复杂的下游应用奠定了基础。
  • scGFT 增强网络分析以识别人类肺泡上皮中的基因程序:在转录组学研究中,识别功能相关的基因集及其与生物学背景的关联至关重要,但在罕见细胞类型中,由于样本量不足,基于图形 lasso(glasso)的网络推断策略往往受到限制。研究人员利用 GSE178360 数据集,针对罕见的肺泡上皮亚型 AT0、AT1 和 AT2 进行研究。通过 scGFT 为每个亚型合成 5000 个细胞,修改 10 个 CCs。通过 UMAP 定性评估和差异表达基因(DEGs)分析,验证了合成细胞的保真度。然后,对原始数据和合成数据合并后的基因 - 基因关联网络进行推断,识别出模块,并进行基因富集分析。结果发现,推断出的模块与呼吸功能相关的通路有大量重叠,如核糖体蛋白相关通路、细胞对无机物质的反应通路、上皮细胞分化通路等。此外,通过轨迹推断分析表明,scGFT 合成的细胞能够准确重现 AT 细胞的发育转变,恢复关键的分化通路,这说明 scGFT 能够增强网络推断的统计能力,得出更可靠的生物学结论,而这些是仅使用原始有限数据无法实现的。

综合来看,scGFT 为单细胞研究带来了新的曙光。它通过基于傅里叶变换的严谨数学框架,实现了单细胞数据的有效增强。与传统的生成模型相比,scGFT 具有无需训练、计算效率高、能从单个细胞合成独特细胞群体等优势。这一成果不仅有助于解决单细胞研究中数据稀缺的难题,还为疾病机制研究、药物研发等领域提供了强有力的工具,推动了细胞靶向精准医学的发展。然而,研究人员也指出,虽然 scGFT 在合成数据方面表现出色,但仍需关注合成数据可能引入或放大偏差的风险,在临床决策等关键应用中,需要进行更严格的评估,以确保数据的生物学相关性和可靠性。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号