
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于单调深度学习框架的保序批次效应校正方法在单细胞RNA测序数据整合中的应用与优势
【字体: 大 中 小 】 时间:2025年07月02日 来源:Briefings in Bioinformatics 6.8
编辑推荐:
这篇综述提出了一种创新的保序批次效应校正方法,通过构建单调深度学习网络(monotonic deep learning network)有效解决了单细胞RNA测序(scRNA-seq)数据整合中的关键问题。该方法在保持基因表达水平原始排序(order-preserving)的同时,显著提升了细胞类型(CT)聚类准确性,并优于现有方法如ComBat、Harmony等。其创新性在于采用加权最大均值差异(weighted MMD)作为损失函数,通过全局和局部两种模型实现了更好的批次混合(batch mixing)和基因间相关性(inter-gene correlation)保留。
单细胞RNA测序技术革命性地改变了我们对细胞异质性和基因调控的理解,但实验批次效应(batch effect)严重影响了数据整合的可靠性。现有方法往往忽视了基因表达水平的保序特征(order-preserving feature),导致重要生物学信息的丢失。本研究基于单调深度学习网络开发了一种新型保序校正方法,通过加权最大均值差异(MMD)损失函数和创新的网络结构设计,在保持基因表达原始排序的同时,显著提升了数据整合质量。
单细胞RNA测序数据分析面临批次效应的重大挑战。传统方法如ComBat和Harmony虽然有效,但无法保持基因表达水平的原始排序。本研究提出的方法通过结合初始聚类、最近邻(NN)信息和单调深度学习网络,实现了更精确的批次效应校正。特别值得注意的是,该方法在保留差异表达(differential expression)信息方面表现出色,为下游分析提供了更可靠的生物学解释。
研究采用标准预处理流程,包括低质量细胞和基因过滤、细胞归一化和对数转换。高变基因(HVGs)选择采用scanpy工具包的标准流程,默认选择2000个HVGs作为输入特征。初始聚类采用Louvain算法,通过平均轮廓宽度(ASW)自动确定分辨率参数。
方法的核心在于构建相似性矩阵和单调深度学习网络:
研究提出了两种模型变体:
在多个数据集上的测试表明,只有本研究的方法和ComBat能保持非零基因表达水平的原始排序。特别值得注意的是,在乳腺上皮细胞数据集(Dataset 1)中,本研究方法在Spearman相关系数上显著优于其他方法。
通过分析显著相关基因对的变化,研究发现本方法在均方根误差(RMSE)、Pearson相关和Kendall相关等指标上表现最优。在大多数细胞类型中,校正前后基因相关性的差异无统计学意义(P>0.05)。
在9个实验数据集和1个模拟数据集上的测试表明:
本方法在保持原始差异表达信息方面表现突出。在肺癌细胞数据集(Dataset 2)中,与其他方法相比,本方法产生的异常差异表达基因数量最少(仅2个),显著优于ResPAN(161个)和Seurat(1个)。
本研究的主要创新在于:
根据实验结果,建议:
方法在罕见细胞类型和复杂组织中的应用仍存在挑战,未来可通过改进网络结构和训练策略进一步优化。
本研究提出的保序批次效应校正方法通过创新的单调深度学习框架,在保持基因表达原始排序的同时,显著提升了单细胞RNA测序数据的整合质量。该方法不仅改善了细胞类型聚类准确性,还更好地保留了关键的生物学信息,为单细胞数据分析提供了更可靠的工具。
生物通微信公众号
知名企业招聘