DeSciDe:一种用于无偏文献搜索和基因列表整理的工具,揭示了酸性位点突变H2A E92K的新功能

《Molecular Omics》:DeSciDe: a tool for unbiased literature searching and gene list curation unveils a new role for the acidic patch mutation H2A E92K

【字体: 时间:2025年11月12日 来源:Molecular Omics 2.4

编辑推荐:

  基因列表无偏见排序工具DeSciDe的开发与应用。通过结合文献优先级与STRING网络连通性分析,建立基因筛选新方法,在PDL1互作、H2A E92K突变调控细胞周期及COVID-19宿主反应等案例中验证其有效性,揭示新生物学机制。

  在现代生命科学领域,随着高通量技术的不断发展,多组学分析(Omics analysis)已经成为研究生物系统变化的重要工具。通过分析DNA、RNA和蛋白质等生物分子的表达或修饰模式,研究人员能够揭示细胞对外界刺激的反应机制。然而,尽管多组学技术提供了大量数据,如何从中筛选出真正具有生物学意义的基因仍然是一个挑战。传统的基因筛选方法往往依赖于研究者的先验知识,这可能导致对某些已被广泛研究的基因的偏好,从而忽视了许多潜在的、未被充分探索的基因。为了解决这一问题,我们开发了一种名为“Deciphering Scientific Discoveries (DeSciDe)”的开源R包,旨在为多组学分析中产生的基因列表提供一种更加客观、系统的方法,以减少人为偏见对基因选择的影响。

DeSciDe的核心理念是通过文献数据挖掘和网络连接性分析,对基因列表进行排名。该方法首先基于文献中的关键词共现情况对基因进行“ precedence”(优先级)排序。这里的关键词可以是与研究相关的细胞刺激、疾病或生物学过程。通过分析这些关键词在文献中的出现频率,我们可以判断某个基因是否在特定领域或与特定刺激相关性较高。其次,DeSciDe还引入了一个“ connectivity”(连接性)指标,该指标衡量基因在基因互作网络中的连接程度。通过结合这两个维度的分析,DeSciDe能够生成一个散点图,直观地展示基因在优先级和连接性上的分布情况,从而帮助研究人员更有效地筛选出值得进一步研究的基因。

在实际应用中,DeSciDe的分析流程可以应用于多种类型的多组学数据,例如RNA-seq、蛋白质组学、CRISPR筛选和ATAC-seq等。以一个关于PDL1受体互作组的近距蛋白质组学(proximity proteomics)数据集为例,研究人员通过DeSciDe分析发现,该数据集中的一些基因虽然在文献中没有被广泛研究,但它们在基因互作网络中的连接性较高,可能具有重要的生物学功能。这些基因在传统分析中容易被忽视,而DeSciDe的可视化工具则能够将它们凸显出来,为后续实验提供新的方向。此外,DeSciDe还能够将文献中关于特定刺激或疾病的关键词进行交叉比对,从而提供一个更加全面的基因优先级评估。

在另一个案例中,我们对一项研究H2A突变对核小体微环境影响的蛋白质组学数据进行了重新分析。研究人员发现,H2A E92K突变可能影响细胞周期调控,这一发现通过DeSciDe的分析得到了验证。通过连接性分析,我们识别出一组在文献中未被充分关注的基因,这些基因可能在细胞周期调控中发挥关键作用。随后的细胞周期分析和细胞增殖实验进一步支持了这一假设,表明该突变可能导致细胞在G2期停滞,并降低细胞增殖能力。这些结果不仅揭示了H2A E92K突变的新功能,也展示了DeSciDe在识别潜在生物学意义的基因方面的能力。

除了蛋白质组学数据,DeSciDe还被应用于RNA-seq分析,以研究TDP-43缺乏导致的额颞叶痴呆和肌萎缩侧索硬化症(FTD-ALS)中的差异剪接现象。研究人员通过DeSciDe分析发现,UNC13A在剪接相关文献中的出现频率较高,同时在基因互作网络中具有较高的连接性,这表明该基因在疾病机制中可能具有重要地位。此外,DeSciDe还能够识别出其他具有潜在研究价值的基因,这些基因虽然在文献中出现频率较低,但在基因互作网络中具有较高的连接性,可能具有未被充分研究的功能。

最后,我们还分析了2020年关于新冠病毒(SARS-CoV-2)感染后宿主反应的蛋白质组学和转录组学数据。研究者发现,某些猫蛋白酶(cathepsins)在感染后表达水平升高,可能与疾病严重程度相关。通过DeSciDe的分析,我们确认了这些基因在文献中与“新冠”或“疾病”相关关键词的共现频率较高,同时在基因互作网络中也具有较高的连接性。这一结果进一步证明了DeSciDe在跨领域、跨数据类型的多组学分析中的适用性。

尽管DeSciDe在基因筛选方面展现出显著的优势,但其方法仍然存在一些局限性。例如,连接性分析依赖于已有的基因互作网络数据,而这些数据可能并不全面,尤其是对于一些尚未被充分研究的基因。此外,文献数据挖掘虽然能够提供基因的优先级信息,但它仅能识别包含特定关键词的文献,而无法判断这些文献是否真正与研究主题相关。因此,研究人员在使用DeSciDe时,需要谨慎选择关键词,以确保分析结果的准确性。同时,由于基因列表的规模对分析结果有较大影响,DeSciDe最适合处理20至500个基因之间的数据集,过小或过大的数据集可能会降低其筛选效率。

为了进一步提升DeSciDe的分析能力,我们正在探索将富集倍数(enrichment fold change)等其他指标纳入分析框架。富集倍数是衡量基因表达变化的重要参数,能够帮助研究人员更准确地识别在特定条件下发生显著变化的基因。结合富集倍数与文献优先级和连接性分析,将有助于构建一个更加全面的基因筛选体系。此外,我们还计划优化关键词筛选算法,使其能够更智能地识别与研究主题相关的文献,从而减少人为干预对结果的影响。

DeSciDe的开发不仅为多组学数据分析提供了一种新的工具,也为生命科学领域的研究者提供了一个开放、透明且可重复的分析流程。通过减少人为偏见,DeSciDe能够帮助研究人员发现那些在传统方法中容易被忽略的基因,从而拓展研究的广度和深度。例如,在H2A E92K突变的研究中,DeSciDe不仅确认了该突变对核小体微环境的影响,还揭示了其在细胞周期调控中的新角色。这种发现对于理解突变如何影响细胞功能以及开发新的治疗策略具有重要意义。

此外,DeSciDe的应用范围并不仅限于特定的研究领域。无论是在癌症研究、免疫学、神经退行性疾病还是病毒学等领域,该工具都能够帮助研究人员更系统地分析基因列表,识别潜在的生物学意义。通过将文献信息与基因互作网络数据相结合,DeSciDe提供了一种跨学科的分析方法,能够促进不同领域的研究人员在基因筛选和功能研究方面取得新的突破。

总体而言,DeSciDe的开发代表了多组学数据分析方法的一次重要进步。它通过引入文献优先级和基因连接性两个维度的分析,为研究人员提供了一种更加客观和系统的方法,以减少人为偏见对基因选择的影响。随着多组学技术的不断发展,数据量的增加和复杂性的提升,DeSciDe等工具的出现将有助于科学家更高效地筛选和验证基因功能,推动生命科学研究的深入发展。未来,我们期待DeSciDe能够在更多研究领域中得到应用,并进一步优化其分析能力,以更好地服务于科学研究的需求。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号