编辑推荐:
在细胞生物学研究中,推断基因网络(GN)极具挑战。研究人员开展了 scPRINT 相关研究,训练出可推断基因网络的基础模型。结果显示,scPRINT 在多项任务中表现出色。这一成果有助于深入理解细胞机制,为相关研究提供有力工具。
细胞,作为生命的基本单元,其内部的运作机制如同一个神秘的黑匣子。在这个微观世界里,无数的大分子相互作用,共同调控着细胞的各种生命活动。而基因网络,就像是细胞活动的 “指挥中心”,它决定了细胞的状态和功能。然而,要想精准地描绘出这个 “指挥中心” 的全貌,却困难重重。目前,现有的基因网络推断方法存在诸多问题,比如大多数方法无法处理大规模的单细胞 RNA 数据集,需要大量细胞样本,难以重建细胞状态特异性网络;还有些方法依赖于细胞分化的时间顺序,但这往往难以预测。因此,探索一种更有效的基因网络推断方法迫在眉睫。
在这样的背景下,来自法国巴斯德研究所(Institut Pasteur)、巴黎西岱大学(Université Paris Cité)等机构的研究人员展开了深入研究。他们成功开发出了 scPRINT(single-cell PRe-trained Inference of Networks with Transformers)这一新型单细胞 RNA 测序基础模型,并将相关研究成果发表在《Nature Communications》上。这一成果为基因网络推断领域带来了新的曙光。
研究人员在研究过程中运用了多种关键技术方法。首先,他们从 cellxgene 数据库中选取了来自多个物种、疾病和种族的超过 5000 万个细胞,使用自定义的加权随机抽样方法对 scPRINT 模型进行训练。其次,设计了独特的预训练任务,包括去噪任务、瓶颈学习任务和标签预测任务,以促使模型学习有意义的基因连接,并赋予其零样本预测能力。此外,通过从注意力矩阵中提取元细胞基因网络,来展示模型对细胞生物学的建模能力。
下面让我们详细了解一下 scPRINT 的研究结果:
- scPRINT:用于基因网络推断的 scRNAseq 基础模型:scPRINT 是一种双向变压器模型,通过对 5000 多万个细胞的训练,能够生成细胞类型特异性的全基因组基因网络。其预训练任务包括去噪、瓶颈学习和标签预测,这些任务使模型不仅能学习基因连接,还具备零样本预测能力。同时,scPRINT 对基因表达的编码和解码采用了新的机制,增强了模型的性能。
- scPRINT 在基因网络中恢复生物学特征:研究人员通过与现有方法对比,评估 scPRINT 恢复的基因网络是否包含有意义的生物学知识。在模拟数据和真实表达数据的基准测试中,scPRINT 在恢复已知网络连接、富集转录因子(TF)和细胞类型标记基因等方面表现出色,证明其生成的基因网络具有生物学意义。
- scPRINT 在细胞类型特异性基准测试中优于现有方法:利用扰动测序(perturb-seq)和染色质免疫沉淀测序(ChIP-seq)作为基准,scPRINT 在预测基因网络时,比其他方法更能区分直接和间接的 TF - 基因连接,在不同数据集上均展现出优异的性能。
- scPRINT 在与 GN 推断正交的任务上具有竞争力:在去噪、细胞类型预测和批效应校正等任务中,scPRINT 表现出与现有方法相当的性能,甚至在某些方面更优。例如,在去噪稀有细胞状态时,scPRINT 优于其他方法;在细胞类型预测中,它能进行零样本预测,且在某些指标上与现有方法相当。
- scPRINT 突出了离子交换和纤维化在良性前列腺增生细胞外基质中的作用:应用 scPRINT 分析人类前列腺组织图谱,研究人员在 B 细胞中发现了具有肿瘤微环境早期标记的细胞群体,在成纤维细胞中揭示了与衰老、炎症相关的基因网络,表明 scPRINT 有助于在特定细胞和分子背景下识别新的途径和靶点。
在研究结论和讨论部分,scPRINT 的优势十分显著。它在大多数基准测试中优于其他基础模型,且无需微调就能在多个细胞生物学任务中取得与著名单细胞 RNA 测序工具相当的性能。这得益于其独特的归纳偏差和训练过程。此外,scPRINT 在分析前列腺组织图谱时,成功揭示了良性前列腺增生(BPH)相关的细胞变化和基因网络,为理解疾病机制提供了新的视角。然而,基因网络推断领域仍面临一些挑战,如缺乏完美的基准真值,现有方法多基于模拟数据进行基准测试。未来,需要创新的实验方法来生成更准确的基因网络。scPRINT 的出现,为基因网络推断和细胞生物学研究开辟了新的道路,有望推动该领域取得更多突破。