基于Vast OpenOrd布局的基因功能互斥聚类算法VOL-Gene及其在功能注释中的应用

《Algorithms for Molecular Biology》:Exclusive functional signatures for gene annotation with vast OpenOrd layout

【字体: 时间:2025年10月01日 来源:Algorithms for Molecular Biology 1.7

编辑推荐:

  本研究针对基因集富集分析(GSEA)中标记基因数量不足的问题,开发了VOL-Gene算法。该算法通过整合Enrichr数据库中的功能签名构建加权基因共现网络,采用OpenOrd布局优化和KMeans聚类技术,将全部基因划分为互不重叠的功能类,为每个基因分配单一功能注释。结果表明,该方法能有效识别生物学相关基因模块(如TP53相关癌症通路、IL6相关炎症模块),为GWAS研究中低注释基因的功能推测提供新思路。论文发表于《Algorithms for Molecular Biology》。

  
在基因组学研究中,科学家们常常面临一个尴尬的困境:通过全基因组关联分析(GWAS)或差异表达分析筛选出的候选基因数量过少,难以进行有效的基因集富集分析。这些稀少的"线索基因"就像孤岛一样,难以揭示其背后的生物学过程全景。更棘手的是,现有功能注释数据库(如Gene Ontology、KEGG通路)中存在大量重叠注释,单个基因可能同时属于多个功能类别,这种"一对多"的注释方式使得小规模基因集的功能解读变得尤为困难。
传统方法在处理这类问题时显得力不从心。基因集富集分析需要足够数量的基因才能获得统计学显著性,而基于共表达模块的"功能签名"方法又难以应用于少量基因的情况。这正是Buzanov和Makeev在《Algorithms for Molecular Biology》上发表的研究致力于解决的核心问题。
研究人员开发了一种名为VOL-Gene(Vast OpenOrd Layout for Gene annotation)的创新算法,该算法基于图论原理,旨在将所有基因划分为互不重叠的功能类别,为每个基因分配一个最具代表性的功能标签。这种方法的核心思想在于:尽管一个基因可能参与多个生物学过程,但在大多数情况下,它有一个最主要或最常被报道的功能。
研究团队从Enrichr数据库中整合了来自Gene Ontology、KEGG通路、Reactome通路等多个资源的基因功能签名,构建了一个全面的基因功能超数据库。为了避免基因命名歧义,所有基因名称均统一为NCBI数据库中的标准命名。
关键技术方法包括:首先基于基因在功能签名中的共现频率构建加权图(节点为基因,边权重由共现频率归一化计算);然后采用OpenOrd力导向布局算法对图进行降维优化,通过模拟物理粒子系统的吸引-排斥作用,使功能相似的基因在二维空间中聚集;最后使用KMeans聚类算法识别密集区域,形成互斥的功能模块。通过多层聚类策略,还可获得不同粒度级别的功能注释层次。
VOL-Gene pipeline实现
研究人员采用了OpenOrd作者建议的退火流程,包括五个连续阶段:液态阶段(5%)、扩展阶段(25%)、冷却阶段(60%)、压缩阶段(5%)和文火阶段(5%),总迭代次数为1500次。该算法通过最小化系统的势能函数来确定图中顶点的最优平面布局位置。为了处理大规模数据(约20,000个基因),研究采用了两种策略:剔除权重低于阈值(T=0, 0.05, 0.1, 0.2)的边,以及保留在原始特征集中出现频率最高的前1-5000个基因。
退火贡献评估
为了评估退火阶段的作用,研究比较了VOL-Gene与多种传统聚类算法的性能。将签名数据库按2:1比例随机分为训练集和验证集后,使用合成Jaccard指数和同配性指数作为评估指标。结果表明,在不同基因数量和边剪裁阈值条件下,VOL-Gene pipeline在同配性方面优于其他方法(如谱聚类、K-medoids、层次聚类、亲和传播和HDBSCAN),而在Jaccard指标上与其他方法表现相当。特别是在无剪裁阈值(T=0)条件下,VOL-Gene处理完整图的能力比其他算法快至少十倍。
结果聚类分析
对完整基因集(N=18,995)进行分类后,获得了约80个大小不等的聚类。通过使用已知基因标记选择聚类并通过Metascape进行注释,发现多个聚类具有明确的生物学意义。例如,包含TP53的聚类有111个基因,其中包含EGFR、VEGFA、CDKN1A等经典癌症驱动基因和细胞周期调控基因,注释为"癌症通路"和"程序性细胞死亡的正向调控"。包含IL6的炎症相关聚类有319个基因,其中79个注释为细胞因子,69个为趋化因子相关,包含SRC、TNF和STAT3等已知炎症调控因子。MYH2相关聚类则包含大量与骨骼肌收缩相关的基因。
研究还发现,精神分裂症GWAS研究中的优先基因在VOL-Gene聚类中呈现明显富集,主要集中在与神经元和突触过程相关的聚类中,包括化学突触传递、突触信号调控、神经元投射发育等功能类别。例如,聚类#77包含可能与血管生成相关的基因,同时包含ANKRD44和DGCR6等精神分裂症风险位点基因,这些基因功能注释较少,但与HNF1B和FUT8等已知精神分裂症相关基因出现在同一聚类中,为这些低注释基因的功能研究提供了线索。
与GeneSigDB数据库的比较显示,互斥聚类平均可覆盖高达80%的GeneSigDB签名,表明这种聚类方法确实保留了有价值的生物学过程信息。
研究讨论部分指出,VOL-Gene方法虽然为每个基因分配单一功能标签,看似限制了基因的多功能性,但这种权衡在清晰度和实用性方面具有优势。与支持多标签输出的通用图聚类方法(如Louvain和Leiden)相比,VOL-Gene在生物解释性方面表现更佳。在高度剪裁阈值(T=5)下,Louvain和Leiden方法产生的聚类数量接近基因数量,80%的基因被分配到单例聚类;而在低阈值下,聚类数量过少(5-7个),限制了生物学分辨率。
研究结论强调,VOL-Gene提供了一种系统、高效的方法来解释基因聚类结果,通过基于图的可视化方法,研究人员可以获得基因间功能关系和相互作用的全面概览。该方法不显式依赖基因表达信息,而是利用基于基因共享生物学过程、分子功能和通路的可用功能注释。虽然该方法高度依赖现有注释的质量和全面性,且可能因贪婪优化而收敛到局部最优,但测试表明不同重复间的差异很小(20-50个基因分类不同),在20,000个基因的样本量下结果稳定。
这项研究的重要意义在于为功能注释提供了新的思路,特别是在处理少量标记基因或低注释基因时展现出了实用价值。通过将基因基于其在多种生物过程中的共享参与情况进行聚类,VOL-Gene识别出的非重叠签名可以帮助研究人员在各种背景下快速优先考虑基因,为基因功能研究提供了新的工具和视角。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号