cytoGPNet:基于高斯过程与深度学习的纵向细胞术数据建模提升小样本临床结局预测精度

【字体: 时间:2025年06月26日 来源:Patterns 6.7

编辑推荐:

  本研究针对单细胞细胞术数据在临床结局预测中面临的小样本、细胞数量变异和时序依赖性等挑战,开发了整合深度学习与高斯过程(GP)的cytoGPNet框架。该方法通过自动编码器降维、GP建模细胞间关联及注意力机制整合时序信息,在6个免疫数据集上显著提升预测性能(AUC最高达90%),并揭示KLRG1等关键生物标志物,为精准医疗提供可解释的免疫监测工具。

  

免疫系统的精细监测是理解疾病机制和评估治疗响应的关键。近年来,流式细胞术和质谱流式(CyTOF)技术的发展使单细胞水平的多参数免疫分析成为可能,但在转化临床应用时仍面临三大瓶颈:传统门控分析丢失单细胞分辨率信息;小样本队列难以训练复杂模型;时序样本间的生物学关联未被充分利用。尤其对于癌症免疫治疗和疫苗试验等场景,如何从纵向细胞术数据中挖掘预测性生物标志物,成为亟待解决的难题。

针对这些挑战,美国杜克大学Jingxuan Zhang、加州大学圣巴巴拉分校Wenbo Guo和杜克大学Lin Lin团队在《Patterns》发表研究,提出cytoGPNet创新框架。该工作通过融合深度学习与高斯过程的优势,首次实现对小样本纵向细胞术数据的端到端建模,在保持单细胞分辨率的同时提升预测鲁棒性,并建立可解释的生物标志物发现流程。

研究方法的核心在于三级架构设计:首先采用自动编码器(AE)将高维细胞数据压缩至低维潜空间;随后通过高斯过程(GP)建模细胞间时空相关性,利用诱导点变分推断降低计算复杂度;最后用时序注意力层整合样本内细胞信息。研究使用5个公共细胞术数据集(SDY1708 COVID-19数据、SDY212流感疫苗数据等)和1个scRNA-seq数据集(SC4)进行验证,涵盖20-308例样本量级和8-49个标志物维度。

研究结果通过四个维度展开验证。在预测性能方面,cytoGPNet在6个数据集的5折交叉验证中均显著优于CellCnn等对比方法,其中非小细胞肺癌(TOP1501)的AUC达85.0±33.5,CMV感染数据集更达到90.0±22.4。如图2所示,该方法在AUC、F1等指标上全面领先,尤其在10%时间点缺失的模拟实验中仍保持67.6-72.3的稳定AUC,展现对小样本和缺失数据的适应性。

在技术鲁棒性验证中,研究团队发现批次效应可通过模型层级自动校正。如图3所示,健康对照样本在输入层呈现明显的批次间差异(p<0.05),但经GP层处理后,Kruskal-Wallis检验p值升至0.12,响应与非响应患者的免疫特征分离度反而提升82%。这种去噪能力使模型在TOP1501三批次数据中保持稳定预测,无需额外批次校正。

最具临床价值的是生物标志物发现环节。通过设计的掩膜解释算法,研究在肺癌治疗基线数据中鉴定出KLRG1为关键预测因子。如图4所示,非响应者CD8+CD45RA+CD197+细胞中KLRG1高表达(OR=3.2),这与已知的KLRG1抑制NK细胞抗肿瘤功能机制一致。此外,CD4+CD39+亚群中CD127和HLADR分别成为基线/治疗后预测标志物,为免疫检查点抑制剂疗效评估提供新靶点。

该研究的创新性体现在方法论融合与临床转化双重维度。技术上,首次将GP的时空建模优势引入单细胞分析,通过变分推断实现O(M2)到O(O2)的计算优化;临床上,突破传统"先降维后预测"的分析范式,建立从单细胞直接到临床结局的可解释通路。局限性在于对超万人级单细胞数据的扩展性有待验证,且当前注意力机制对亚群特异性标志物的解析粒度不足。

这项研究为免疫治疗响应预测树立了新标准,其框架可扩展至其他单细胞模态如空间转录组分析。随着单细胞技术在临床试验中的普及,cytoGPNet有望成为连接基础研究与精准医疗的桥梁,特别适用于罕见病和早期临床试验等小样本场景。研究者已开源代码并建立Zenodo数据归档,推动该方法的广泛应用和持续优化。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号