
-
生物通官微
陪你抓住生命科技
跳动的脉搏
少即是多:无数据增强的单细胞RNA测序对比学习算法提升细胞类型鉴定精度
【字体: 大 中 小 】 时间:2025年08月07日 来源:Bioinformatics 5.4
编辑推荐:
本研究针对单细胞RNA测序(scRNA-Seq)分析中细胞类型鉴定的关键问题,提出无数据增强的对比学习算法AF-RCL。通过创新性地简化数据增强操作并改进损失函数,该方法在18个数据集上验证显示:相比传统对比学习方法,其MCC值提升10-14%,F1-score提高8-17%,且学习到的特征表示在均匀性与语义保留性上达到更优平衡。相关工作发表于《Bioinformatics》,为单细胞分析提供了新范式。
在生命科学领域,单细胞RNA测序(scRNA-Seq)技术如同显微镜般揭示了细胞水平的基因表达图谱,但如何准确识别这些"分子指纹"对应的细胞类型,仍是困扰研究者的难题。传统机器学习方法如scPred、ACTINN等虽取得进展,却受限于高维稀疏数据的挑战;而新兴的对比学习技术虽展现出潜力,但其依赖的数据增强操作可能引入噪声干扰。伦敦大学伯贝克学院( Birkbeck, University of London )与伦敦大学学院( University College London )的研究团队在《Bioinformatics》发表的研究,通过创新性地"做减法",开发出无数据增强的AF-RCL算法,不仅简化了流程,更在18个数据集上实现平均12%的性能提升,为单细胞分析树立了新标杆。
研究采用三大关键技术:1) 基于原始scRNA-Seq表达谱构建正负样本对的增强免策略;2) 改进的监督对比损失函数(式1),通过调整分母结构缓解过拟合;3) 结合支持向量机(SVM)的分类框架,使用马修斯相关系数(MCC)、F1-score和准确率(ACC)多指标评估。实验数据涵盖人类和小鼠等18个公开数据集,通过Zenodo平台获取。
【AF-RCL框架优势】算法1展示的创新流程中,通过直接利用细胞类型标签构建正负样本集(图1红蓝矩阵),省去了传统的数据增强步骤。与需要高斯噪声或基因掩码的对比学习方法相比,AF-RCL在10/18数据集上MCC值优于Sup-GsRCL,在14/18数据集上超越Self-GsRCL(图3),证明"少即是多"的设计理念。
【表征学习质量】式5-6的量化分析揭示,AF-RCL在均匀性(Uniformity)与容忍度(Tolerance)间取得更好平衡(图6)。虽然Self-GsRCL在均匀性上表现最佳,但其容忍度得分最低;而AF-RCL在两项指标的乘积值上领先于5种对比方法中的4种,说明其学习到的特征空间兼具全局分散性和局部聚类性。
【跨方法比较】如图4所示,AF-RCL相较传统方法优势显著:对scPred的MCC优势达10/18数据集,对ACTINN全面领先13/18数据集。即使是当前最先进的scGPT(基于3300万人类细胞预训练),AF-RCL仍在5/8人类数据集上ACC值更优(图4L),突显其普适性。
这项研究通过理论创新和方法简化,实现了单细胞分析领域的双重突破:其一,证明数据增强并非对比学习的必需环节,为算法设计提供新思路;其二,改进的损失函数机制(式1)通过调整梯度计算方式,有效缓解过拟合问题。正如讨论部分强调的,AF-RCL特征表示在保留局部语义结构(式6)的同时,维持了更好的全局分布均匀性(式5),这种平衡使其在下游任务中表现卓越。未来,该框架可扩展至数据整合、批次效应校正等场景,为单细胞多组学研究提供通用解决方案。
生物通微信公众号
知名企业招聘