InCURA:基于转录因子结合位点的整合性基因聚类新方法

《Nucleic Acids Research》:InCURA: integrative gene clustering based on transcription factor binding sites

【字体: 时间:2025年12月20日 来源:Nucleic Acids Research 13.1

编辑推荐:

  为解决传统基因集富集分析(GSEA)在特定实验背景下过于通用,以及共表达聚类(WGCNA)无法直接反映共享调控输入的问题,研究人员开发了InCURA。该工具通过整合转录因子(TF)结合位点(TFBS)信息,对差异表达基因(DEG)进行无监督聚类,成功识别出具有功能一致性的基因模块,揭示了标准分析难以检测的上游调控因子和调控程序,为转录组数据的生物学解读提供了新的视角。

  
在生命科学领域,高通量转录组测序已成为揭示细胞功能、发育和疾病机制的核心技术。然而,当我们获得一份长长的差异表达基因(Differentially Expressed Genes, DEGs)列表时,如何从中提取出有意义的生物学见解,却是一个巨大的挑战。传统的基因集富集分析(Gene Set Enrichment Analysis, GSEA)虽然常用,但其依赖的基因集(如GO、KEGG)往往过于通用,无法捕捉特定实验背景下的细微调控程序。另一方面,共表达网络分析(如WGCNA)虽然能发现表达模式相似的基因模块,但其基于相关性,无法直接反映这些基因是否受到共同的转录因子(Transcription Factor, TF)调控。
为了克服这些局限,来自海德堡大学等机构的研究团队开发了一种名为InCURA(Integrative gene clustering based on transcription factor binding sites)的新工具。该工具独辟蹊径,不再仅仅关注基因的表达水平,而是将目光投向了基因的“上游”——它们的启动子区域。InCURA通过分析差异表达基因启动子中的转录因子结合位点(Transcription Factor Binding Sites, TFBS)模式,将具有相似调控“蓝图”的基因聚类在一起,从而识别出功能一致的基因模块,并揭示其潜在的上游调控因子。这项研究于2025年发表在《Nucleic Acids Research》上。
为了开展这项研究,研究人员主要运用了以下关键技术方法:首先,他们从多个公开数据库获取了不同来源的转录组数据,包括小鼠T细胞耗竭模型、系统性红斑狼疮(SLE)患者B细胞、小鼠肝细胞昼夜节律模型以及小鼠原肠胚形成过程的单细胞数据。其次,他们利用FIMO(MEME Suite)工具对差异表达基因的启动子区域(-2000至+500 bp)进行扫描,识别转录因子结合位点,构建基因-TFBS计数矩阵。最后,他们采用k-means聚类算法对基因进行无监督聚类,并通过富集分析(Fisher精确检验)和转录因子富集分析来评估和解释聚类结果。
InCURA:基于TFBS信息的整合性基因聚类
为了系统地揭示转录共调控的基因模块,InCURA利用了差异表达基因启动子区域中的TFBS信息,识别出可能由共同上游调控因子驱动的基因簇。该工具的核心输入包括两个基因列表:差异表达基因列表和所有表达基因列表。通过扫描差异表达基因启动子中特定转录因子的结合位点,构建一个基因-TFBS计数矩阵。随后,利用无监督的k-means聚类算法,将具有相似预测调控输入的基因归为同一模块。这些模块可以作为下游分析的基础,包括功能富集分析和驱动转录因子的识别。
案例研究1:InCURA从小鼠Bulk RNA-seq数据中恢复效应T细胞特征
为了评估InCURA能否从Bulk RNA-seq数据中恢复有生物学意义的基因模块,研究人员将其应用于一个已发表的TOX敲除小鼠模型数据集。该模型显示,TOX敲除导致T细胞耗竭相关基因表达丧失,并出现效应T细胞样转录特征。InCURA分析成功地将差异表达基因聚为4个模块。富集分析显示,其中一个模块显著富集了效应T细胞特征基因,而另一个模块则富集了耗竭T细胞特征基因。相比之下,随机聚类和WGCNA共表达分析均未能有效捕获这些特征。这表明InCURA能够有效识别转录和功能一致的基因模块,揭示共表达分析或富集分析难以发现的生物学相关调控模式。
案例研究2:InCURA从人类Bulk RNA-seq数据中识别系统性红斑狼疮特异性B细胞特征
为了验证InCURA在人类数据中的适用性,研究人员将其应用于系统性红斑狼疮(SLE)患者的B细胞数据集。InCURA分析将差异表达基因聚为5个模块,其中一个模块显著富集了与疾病相关的CD11c+T-bet+B细胞亚群的转录组特征。转录因子富集分析进一步揭示了KLF13和FOXP1是该模块的关键驱动因子,这两个转录因子此前已被证实与狼疮发病机制相关。而随机聚类和WGCNA分析均未能恢复这一疾病相关的基因特征,凸显了InCURA在识别特定生物学背景下的调控程序方面的优势。
案例研究3:InCURA在肝细胞中恢复昼夜节律与代谢程序的调控区分
为了评估InCURA在复杂调控架构中的解析能力,研究人员分析了来自REV-ERBα/β双敲除小鼠肝细胞的单细胞RNA-seq数据。InCURA分析将差异表达基因聚为4个模块,其中一个模块清晰地分离出来,并富集了昼夜节律调控相关基因,而其余模块则反映了代谢通路。这一分离结果支持了原始研究中描述的节律和代谢过程双重紊乱的功能相关性。此外,InCURA还识别出了Esrra、Xbp1、Arid3b、Stat5b和Bcl6等关键转录因子作为这些模块的潜在上游调控因子,这些结果与原始研究通过全基因组结合相似性分析得出的结论一致。
案例研究4:InCURA识别网络数据库来源的DEGs中的模块
为了证明InCURA的广泛适用性,研究人员还将其应用于从网络数据库工具中提取的差异表达基因列表。他们选择了小鼠原肠胚形成过程中代表早期、中期和晚期三个时间点的中胚层谱系元细胞(metacell),并提取了差异表达基因。InCURA分析成功地将这些基因聚为3个模块,并显示出与原始研究中定义的原始条带细胞、早期新生中胚层和头侧中胚层标记基因的富集趋势。此外,分析还识别出了Egr1、Pitx2和Hoxd10等已知在原肠胚形成和中胚层分化中发挥关键作用的转录因子作为模块的驱动因子。
非转录组特征的应用:基于染色质可及性数据的特征
为了展示InCURA在转录组数据之外的更广泛应用,研究人员将其应用于一个基于染色质可及性数据(ATAC-seq)的特征集。该数据集比较了阿霉素耐药和敏感MCF7乳腺癌细胞。InCURA成功识别出了功能一致的基因簇,这些簇富集了癌症相关通路、YAP/TAZ和Hippo信号通路以及与染色质重塑相关的通路。此外,分析还识别出了AP-1、TEAD和FOX等转录因子家族的成员作为关键驱动因子,这些结果与原始研究中的发现一致。
InCURA作为用户友好的网络工具实现可访问的、以调控为中心的聚类
为了支持广泛的可用性和可重复性,研究人员将InCURA实现为一个基于Streamlit的用户友好型网络应用程序。该应用程序允许用户上传输入基因列表,并返回基因簇和转录因子优先级排序结果。为了确保高效的运行时间和平台独立性,InCURA基于预计算的基因-TFBS矩阵运行,无需进行本地TFBS扫描即可实现快速分析。概念验证分析表明,即使使用预计算的全基因组TFBS矩阵,InCURA也能成功地将来自不同功能组(如细胞因子产生、昼夜节律和心肌收缩)的基因集分离成不同的模块,并恢复与原始基因集对应的簇。
研究结论与讨论
InCURA通过基于预测的共享调控输入(而非共表达模式或预定义的基因注释)对基因进行聚类,为转录组数据的功能解读提供了一种灵活且概念独特的方法。该工具的一个关键优势在于其整合了调控信息,同时依赖于最小化且可适应的数据输入要求,使其适用于广泛的实验背景。
研究人员在研究中使用了k-means聚类算法,并基于惯性(inertia)和轮廓系数(silhouette score)的组合以及对潜在生物学结构的先验知识来选择聚类数k。他们的目标是选择能够捕获有意义调控模式的最小k值,避免过度分割成难以注释或解释的簇。基准测试结果表明,InCURA在识别细胞类型和背景特异性基因模块方面优于随机聚类和WGCNA。虽然WGCNA在检测广泛的共表达模式方面仍然是一个强大的工具,但其依赖于全转录组的全局相关结构,可能会掩盖细微但有生物学意义的调控程序。相比之下,InCURA基于共享启动子架构对基因进行聚类,即使在没有强表达相关性的情况下,也能突出显示协调的调控。
InCURA也存在一些局限性。在调控控制分散或未在启动子基序中明显反映的情况下,该方法可能无法恢复预期的连贯簇。此外,基于TFBS的聚类的准确性取决于TF基序数据库的完整性和质量。最后,InCURA不预先按上调和下调来分割差异表达基因,虽然这避免了施加方向性假设,但也意味着调控方向没有被明确建模。
尽管如此,InCURA在多个案例研究中成功识别出了有生物学意义的基因模块,包括Bulk RNA-seq、单细胞转录组学、染色质可及性数据以及网络数据库来源的差异表达基因集。由于其简单的输入要求,InCURA可以轻松集成到任何现有的分析流程中。其基于启动子的聚类和基于基序的特征空间为当前方法提供了一个强大的替代方案,支持在共表达和预定义注释不足的系统中进行发现驱动和整合分析。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号