DeepScence:基于深度学习和核心衰老基因集的单细胞与空间衰老细胞检测新方法
《Cell Genomics》:Single-cell and spatial detection of senescent cells using DeepScence
【字体:
大
中
小
】
时间:2025年10月08日
来源:Cell Genomics 9
编辑推荐:
本研究针对现有衰老细胞检测方法在单细胞和空间转录组数据中存在的基因集不一致、跨物种组织泛化能力差等问题,开发了基于深度学习的DeepScence平台。通过整合多源衰老基因集构建CoreScence核心基因集,结合ZINB自编码器架构,实现在体外/体内scRNA-seq及多种空间转录组数据中精准识别衰老细胞,显著优于现有方法(AUROC达0.86-0.9),为衰老机制研究和抗衰老治疗提供强大工具。
随着人口老龄化加剧,衰老相关疾病已成为全球性健康挑战。细胞衰老(cellular senescence)作为细胞周期永久性停滞的状态,在抑制肿瘤发生的同时,其累积也会导致组织功能衰退和年龄相关疾病(如阿尔茨海默病、骨关节炎、肺纤维化等)的发生。衰老细胞(senescent cells, SnCs)分泌的炎症因子会改变微环境,引发慢性炎症。然而,由于衰老细胞在组织中含量稀少,准确识别其空间和分子特征一直是个巨大挑战。
单细胞RNA测序(scRNA-seq)和空间转录组(spatial transcriptomics, ST)技术的出现为衰老研究提供了新机遇,但现有衰老细胞检测方法存在明显局限:依赖单一标志基因(如CDKN1A/p21、CDKN2A/p16)易受数据稀疏性影响;基于基因集评分的方法(如AUCell、ssGSEA)无法捕捉基因间的非线性关系;监督学习方法SenCID仅基于体外数据训练,在体内数据中表现不佳。更关键的是,不同研究报道的衰老基因集(senescence gene set, SnG)存在显著差异,导致结果不可重复。
为解决这些问题,杜克大学研究团队在《Cell Genomics》发表了题为"Single-cell and spatial detection of senescent cells using DeepScence"的研究,开发了基于深度学习的衰老细胞检测方法DeepScence。该方法通过整合多个已发表基因集构建核心衰老基因集CoreScence,并设计专门的自编码器架构,实现了跨物种、组织和衰老背景的精准检测。
研究团队首先系统评估了9个已发表衰老基因集(SenMayo、SenSig、CSGene等),发现这些基因集在基因数量和组成上存在巨大差异,仅有1.3%的基因被5个以上基因集共同报道。基于此,他们筛选出39个被至少5个基因集共同收录的基因,构建了CoreScence核心基因集,其中包括CDKN1A、CDKN2A等经典衰老标志物。通过分析多个bulk RNA-seq数据集和GTEx数据库,验证了CoreScence基因在衰老细胞与正常细胞间表现出更强的差异表达,且与样本年龄显著相关。
DeepScence模型采用零膨胀负二项分布(ZINB)自编码器架构,输入为CoreScence基因的表达矩阵。其瓶颈层包含两个几乎不相关的神经元,分别捕获衰老相关信息和无关信息。模型通过最小化ZINB负对数似然和神经元间相关性进行训练,最终输出连续衰老分数。该设计使DeepScence仅需5,303个参数,远少于传统深度学习模型,有效防止过拟合。
关键技术方法包括:从9个公共数据库整合衰老基因集构建CoreScence;收集26个scRNA-seq和ST数据集(涵盖人、小鼠多种组织及阿尔茨海默病、肺纤维化等疾病模型);采用ZINB自编码器架构进行无监督学习;通过10折交叉验证和早停策略优化模型;使用免疫组化染色(如β-半乳糖苷酶、p16染色)结果作为金标准进行验证。
研究人员通过分析九个已发表衰老基因集,发现它们之间存在显著不一致性。基因数量从不足100个到超过1000个不等,且基因集间的Jaccard指数均低于0.2。为解决这一问题,他们提取了被至少五个基因集共同收录的39个基因构建CoreScence。验证结果显示,这些基因在衰老细胞中表达变化更显著,且与组织年龄相关性更强,证实了CoreScence的可靠性。
DeepScence在体外scRNA-seq数据集中的表现
在六个体外诱导衰老的scRNA-seq数据集中,DeepScence的AUROC均超过0.9,略优于SenCID。基因集评分方法在某些数据集中表现不稳定(AUROC<0.8),而单基因标志物方法因数据稀疏性表现最差。二值化分析显示,DeepScence在准确率和F1分数上均领先。
DeepScence在体内scRNA-seq数据集中的优势
在八个体内数据集中,DeepScence平均AUROC为0.86,显著优于其他方法(第二佳方法仅0.77)。SenCID在五个细胞类型中AUROC≤0.2,而DeepScence在所有情况下均与实验验证的衰老细胞富集情况一致。特别是在实验性自身免疫性睾丸炎(EAO)模型中的Leydig细胞、肌肉损伤模型和肺IPF患者的AT1细胞中,DeepScence均准确识别出疾病条件下富集的衰老细胞。
在肌肉损伤Visium数据中,DeepScence给损伤区域斑点分配了更高衰老分数,与β-半乳糖苷酶染色和细胞形态学结果一致。在阿尔茨海默病脑组织Stereo-seq数据中,DeepScence检测到严重AD患者小胶质细胞的衰老分数显著高于正常衰老个体。模拟10x Xenium数据分析显示,DeepScence仅需在标准基因面板中添加10个衰老相关基因即可保持优异表现,而SenCID性能大幅下降。
在Tabula Sapiens数据集分析中,DeepScence在77.61%的组织-细胞类型对中识别出衰老分数最高的细胞更可能来自老年个体。在正常衰老小鼠乳腺组织Visium数据中,衰老分数最高的空间斑点几乎全部位于老年小鼠样本中,且富集在淋巴结区域,与年龄相关的免疫细胞增加现象一致。
研究表明,DeepScence成功解决了衰老细胞检测中的关键挑战。CoreScence基因集整合了多源数据,减少了单一基因集的偏差;深度学习架构捕获了基因表达的非线性关系;无监督学习策略使其具有良好的泛化能力。值得注意的是,DeepScence在计算效率上表现优异,可在10分钟内分析105个细胞,内存消耗不超过35.02 GB。
该研究的局限性在于CoreScence是跨组织通用的基因集,未来开发组织特异性基因集可能进一步提升性能。此外,DeepScence目前仅使用基因表达数据,整合形态学特征可能增强其识别能力。
DeepScence为衰老研究提供了强大工具,使研究人员能够充分利用已有的海量单细胞和空间转录组数据。该方法在癌症、神经退行性疾病等年龄相关疾病研究中有广泛应用前景,为开发针对衰老细胞的治疗策略(senolysis)奠定了基础。通过准确绘制不同组织和疾病状态下的衰老细胞图谱,DeepScence将深化我们对衰老生物学机制的理解,推动精准抗衰老治疗的发展。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号