编辑推荐:
细胞调控机制复杂,现有神经网络模型难以解码关键细胞事件背后的调控。研究人员开发 regX 深度神经网络,应用于 2 型糖尿病(T2D)和毛囊发育单细胞多组学数据,发现新治疗靶点等。为解析细胞调控提供新视角,助力疾病研究。
在生命科学领域,细胞的调控机制一直是科学家们探索的核心问题。细胞从基因的表达调控,到多个基因之间的相互作用,涉及多层次的复杂过程。这就好比一个精密的仪器,每个零件(基因)都在特定的时间和空间发挥作用,它们之间相互协作,共同维持着细胞的正常功能和状态。然而,目前的研究遇到了不少难题。
一些现有的神经网络模型虽然能将分子变化与细胞表型联系起来,但却在关键环节出现缺失 —— 缺乏对调控机制的建模。这就像是搭建了一座桥梁,却没有弄清楚桥墩(调控机制)是如何支撑桥梁的,使得我们难以深入理解细胞状态转换等关键事件背后的调控奥秘。这些模型没有考虑到每个基因更基本的调控过程,如染色质重塑和转录因子(TF)结合,而这些过程对于细胞在发育和疾病进展中的变化起着决定性作用。另外,在基因表达和细胞表型之间存在着明显的差距,这也阻碍了相关研究在疾病等领域的进一步应用。
为了攻克这些难题,清华大学的研究人员展开了深入研究。他们开发了一种名为 regX 的深度神经网络,致力于从基因水平调控和基因 - 基因相互作用机制两方面进行突破,探索细胞状态转换的调控密码。研究人员将 regX 应用于两个单细胞多组学数据集,分别是 2 型糖尿病(T2D)进展和毛囊发育相关的数据。研究成果发表在《Nature Communications》上。
在这项研究中,研究人员用到了多个关键技术方法。在数据处理方面,从公共数据库获取 T2D 和毛囊发育的单细胞多组学数据,如从 Gene Expression Omnibus 下载 T2D 的 10x multiome 数据集 。利用 Seurat 工具进行数据预处理,通过主成分分析(PCA)和潜在语义索引(LSI)降维,构建伪批量样本解决单细胞测序数据稀疏问题。在模型构建上,设计 regX 模型,包含基因子网和图神经网络层,根据不同数据集调整网络结构,采用两步训练策略优化模型。
下面来看看具体的研究结果。
- 数据驱动的转录调控建模捕获 TF - cCRE 相互作用:研究人员设计了一种可学习的转录活性矩阵(TAM),它融合了 TF 表达、候选顺式调控元件(cCRE)可及性及其相互作用信息。通过实验对比发现,TAM 在基因表达预测性能上优于其他特征组合,并且学习到的 TF - cCRE 相互作用具有较高的稳健性。同时,研究人员还发现,TF 与 cCRE 相互作用强度和 TF 结合得分(TFBSs)之间存在一定的关联,这表明 TAM 确实捕获到了 TF - cCRE 相互作用的关键信息。
- regX 优先排序 T2D 进展中潜在驱动 β 细胞转变的 TFs:将设计好的 TAM 作为输入,嵌入蛋白质 - 蛋白质相互作用(PPI)网络,训练 regX 对细胞状态进行分类。实验结果显示,该模型在细胞状态预测上表现出色,平均 F1 得分达到 0.960 ± 0.012 。通过对 TFs 进行体内扰动实验,研究人员确定了 23 个潜在驱动 TFs(pdTFs),其中许多与之前报道的 β 细胞功能或 T2D 相关,并且部分 TFs 与现有药物或治疗靶点相关,这为 T2D 的治疗提供了新的潜在方向。
- 排名靠前的 TFs 揭示 T2D 的药物重新利用可能性和新治疗靶点:regX 的机制信息设计使其能够深入分析调控因子对靶基因的调控作用。研究发现,与 pdTFs 相互作用的药物具有潜在的药物重新利用可能性。例如,BROMOCRIPTINE 原本用于治疗其他疾病,现在发现它可能通过与 FOS 基因相互作用,调节金属离子相关生物学过程,从而缓解氧化应激,恢复胰岛素分泌,为 T2D 治疗提供新解释。此外,研究还预测了 TRPS1 可能是 T2D 的新治疗靶点,其敲除可能通过调节相关基因,缓解内质网(ER)应激,减少 β 细胞凋亡,进而延缓 T2D 进展,但这还需要进一步实验验证。
- regX 优先排序 T2D 进展中潜在驱动 β 细胞转变的 cCREs:regX 不仅能识别 pdTFs,还能通过对 cCRE 区域开放状态的体内扰动实验,识别出潜在驱动 cCREs(pdCREs)。研究发现,部分 pdCREs 能够调控多个基因,且大部分 pdCREs 与已知调控元件重叠,这表明 regX 成功捕获了数据中隐藏的基因调控逻辑。同时,研究还发现 TFs 和 cCREs 在调控细胞状态转换中具有一定的互补性,它们通过靶向不同的下游基因发挥作用。
- 排名靠前的调控因子确定 T2D 的两种假因果 SNP:研究人员基于 “靶向疾病驱动调控因子的 SNP 可能是假因果 SNP(pcSNPs)” 这一假设,利用 T2D 数据集的基因型数据,通过顺式表达数量性状位点(eQTL)和染色质可及性数量性状位点(caQTL)分析,确定了 5 个 pcSNPs。这些 pcSNPs 可分为两类,分别通过调节 pdTFs 的表达或 pdCREs 的染色质可及性发挥作用,为 T2D 的遗传学研究提供了新的线索。
- regX 优先排序毛囊发育过程中细胞命运决定的 TFs:研究人员将 regX 应用于毛囊发育数据集,通过调整网络结构,成功预测了离散细胞状态和连续假时间。实验发现,不同上调水平的相同 TF 可以导致完全不同的细胞命运。例如,Lef1 在毛囊发育中,不同的上调水平会使细胞向不同的细胞类型转变,这突出了 regX 在量化调控因子对细胞状态转换影响方面的优势。
研究结论表明,regX 深度神经网络成功整合了细胞系统中的多层次调控过程,为挖掘单细胞多组学数据提供了新方法。在 T2D 研究中,regX 确定了潜在的新治疗靶点、药物重新利用的可能性以及新的 pcSNPs;在毛囊发育研究中,展示了其网络结构的灵活性和在量化调控因子影响方面的优势。不过,研究也指出 regX 仍有改进空间,如优化 TAM 以降低计算成本、探索调控因子组合的影响以及拓展模型对其他组学数据集的适用性等。总体而言,这项研究为深入理解细胞行为和疾病表型的分子基础提供了重要依据,推动了复杂生物过程如疾病进展和发育的研究,为未来的生命科学和医学研究开辟了新的道路。