
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于单细胞测序数据的G-DESC-E迭代聚类算法在泛癌关键基因分析中的创新应用
【字体: 大 中 小 】 时间:2025年07月04日 来源:Briefings in Bioinformatics 6.8
编辑推荐:
本研究针对单细胞测序数据聚类准确性受批次效应和离群值影响的关键问题,开发了整合网格预处理与标签熵优化的G-DESC-E算法。通过融合KL散度与深度学习方法,在7个数据集上实现平均ARI值0.63941的聚类性能,首次鉴定出KDM5C等9个泛癌标志基因及SCG5等癌症特异性基因,为肿瘤异质性研究和临床诊断提供新思路。
在癌症基因组学研究领域,单细胞测序技术革命性地实现了单个细胞水平的基因表达解析,但如何从海量数据中准确识别肿瘤异质性仍面临重大挑战。传统聚类方法如K-means易受离群值干扰,而现有算法如DESC仅聚焦批次效应校正,导致在无批次效应数据中性能下降。更关键的是,当前研究尚未系统探索跨癌种的共性分子特征,制约了泛癌诊断标志物的发现。
天津大学智能与计算学部的研究团队在《Briefings in Bioinformatics》发表的研究中,创新性地提出G-DESC-E算法框架。该研究通过网格密度阈值法预处理数据,结合堆栈自编码器降维,构建融合标签熵与KL散度的目标函数,在肝免疫微环境等7个数据集中实现显著优于DESC和Leiden算法的聚类效果(pan-cancer数据集ARI提升2.3%)。通过GO富集分析,首次揭示KDM5C、PBX2等9个基因的泛癌相关性,并发现SCG5在肺癌/脑癌、GPRC5A在乳腺癌/结直肠癌中的特异性表达模式。
关键技术包括:1) 基于10x Genomics平台的5种癌症单细胞转录组数据(n=34,725细胞);2) 网格划分与密度阈值离群点剔除;3) 堆栈自编码器将基因表达矩阵从Rc×g降至Rd空间(d<

算法性能方面,网格预处理使肝免疫数据集ARI从0.60481提升至0.61337(P<0.005)。G-DESC-E在pan-cancer数据集达到0.63941 ARI值,较DESC提高2.3%。KL散度分析证实其批次效应消除能力,如脑癌+卵巢癌联合数据集的KL值降低37%。
在泛癌基因发现中,研究揭示:1) KDM5C在5种癌症中异常高表达,可能通过干扰素信号通路促进免疫逃逸;2) PBX2家族基因呈现跨癌种高表达特征;3) RESF1过表达可能与病毒感染致瘤相关;4) 神经疾病相关基因FAM120A/BTBD9/RNF103在肿瘤中异常激活。

癌症特异性分析发现:1) 肺癌中TFF3/ADCYAP1/SCG2等神经内分泌基因簇显著富集;2) 乳腺癌特征基因GPRC5A在结直肠癌中同步高表达;3) 脑癌数据集显示ATP1A3/DNM1等突触相关基因与肿瘤进展相关。GO分析表明,嗅觉受体活性等通路在3000个高表达基因中显著富集(P<1×10-5)。

该研究通过算法创新与多组学整合,建立了单细胞聚类到临床解释的转化框架。其价值体现在:1) 网格预处理节省30%计算资源;2) 首次系统鉴定泛癌关键基因模块;3) 揭示SCG家族基因在神经肿瘤与肺癌中的双重作用;4) 为TM4SF4等基因的致癌机制研究提供新方向。这些发现对发展跨癌种早诊策略和靶向治疗具有重要启示。
生物通微信公众号
知名企业招聘