
-
生物通官微
陪你抓住生命科技
跳动的脉搏
OmicsTweezer:基于最优传输的多组学数据细胞解卷积深度学习模型突破组织微环境解析瓶颈
【字体: 大 中 小 】 时间:2025年07月18日 来源:Cell Genomics 11.1
编辑推荐:
针对现有细胞解卷积模型因批次效应和组学差异导致的性能局限,俄勒冈健康与科学大学团队开发了OmicsTweezer深度学习框架。该模型通过整合最优传输(OT)与模拟数据训练,在转录组、空间转录组和蛋白质组数据中实现跨组学解卷积,在前列腺癌和结肠癌数据集成功鉴定出具有临床意义的细胞亚群,为疾病微环境研究提供统一分析工具。
在解析复杂组织微环境的研究中,细胞解卷积技术如同"细胞望远镜",能够通过计算手段从混合信号中还原出各类细胞的真实比例。然而这把"望远镜"长期存在两个关键问题:一是不同实验平台产生的数据如同透过不同材质的镜片观测,批次效应导致图像失真;二是面对转录组、蛋白质组等不同类型数据时,传统方法需要频繁更换"镜头",缺乏统一解决方案。这些局限严重阻碍了从大型队列研究中获取可靠的细胞组成信息。
针对这些挑战,俄勒冈健康与科学大学(Oregon Health & Science University)生物医学工程系的Xinxing Yang等研究人员在《Cell Genomics》发表创新性解决方案。他们开发的OmicsTweezer模型巧妙结合深度学习与最优运输理论,首次实现跨组学数据的统一解卷积分析。这项突破不仅解决了长期困扰领域的批次效应难题,更建立起多组学整合分析的新范式,为癌症等疾病的微环境研究提供强大工具。
研究团队采用四大关键技术路线:首先构建基于Dirichlet分布的模拟数据生成模块,保留单细胞异质性特征;其次设计共享编码器提取跨组学特征;创新性地引入Wasserstein距离度量(W1)构建最优传输损失函数,对齐模拟与真实数据分布;最后通过集成学习提升模型稳定性。实验数据涵盖人工模拟数据集和真实临床样本,包括TCGA前列腺癌(PRAD)队列和结肠癌(COAD)空间转录组数据。
研究结果部分,模型验证实验显示OmicsTweezer在三大技术场景均取得突破性性能:
"Benchmarking OmicsTweezer"部分通过Batch_sim等数据集系统评估显示,该模型在存在批次效应时PCC达0.943(RMSE=0.076),较传统方法提升16.6%。在包含13种免疫亚型的PBMC数据中,模型准确识别CD8+ T细胞等难区分亚群,证明其对细胞异质性的捕捉能力。
"Performance evaluation on real data"部分应用Liu数据集验证临床适用性。模型预测结果与流式细胞术金标准高度一致(PCC=0.99),在空间转录组数据中肿瘤细胞定位与EPCAM标记基因表达谱的空间相关性显著优于Cell2location等专用算法。
"Ablation study"通过消融实验证实,最优传输模块使模型在跨平台数据上的预测稳定性提升11.6%,解决了传统模拟训练方法泛化性不足的核心痛点。
在转化医学应用方面,"Deconvolve PCa bulk RNA-seq"部分揭示前列腺癌微环境动态变化:肿瘤组织中基底细胞(basal cells)比例显著降低而管腔细胞(luminal cells)增加,新发现的谱系可塑性相关上皮细胞(LPCs)与不良预后相关。空间解卷积结果更发现内皮细胞(Endos)与成纤维细胞(Fibs)在结肠癌中的共定位模式,双阳性患者生存期显著缩短(p<0.01)。
这项研究的创新价值体现在三个维度:方法论上首创最优传输引导的跨组学解卷积框架,解决领域内长期存在的分布偏移难题;技术上实现GPU加速,处理10万级训练样本时保持线性时间复杂度;临床应用层面揭示前列腺癌LPCs等新型治疗靶点。正如讨论部分指出,OmicsTweezer的"一站式"分析特性将显著降低多组学整合研究的技术门槛,其模块化设计也为未来纳入表观基因组等新数据类型预留接口。
该研究也存在两方面局限:一是模型性能仍依赖足够数量的参考单细胞数据(建议5000-10000细胞/类型);二是细胞类型注释准确性直接影响解卷积结果。这些发现为后续研究指明方向——开发半监督学习算法降低对标注数据的依赖,整合自监督预训练提升特征提取鲁棒性,将是突破当前局限的关键路径。
生物通微信公众号
知名企业招聘