
-
生物通官微
陪你抓住生命科技
跳动的脉搏
单细胞转录组数据中确定性模式的发现与理论解析:有限样本量效应的数学本质
【字体: 大 中 小 】 时间:2025年01月23日 来源:npj Systems Biology and Applications 3.5
编辑推荐:
研究人员针对单细胞转录组数据中意外出现的确定性模式开展研究,通过分析酵母、小鼠和人类的MERFISH及五种scRNA-seq数据,建立理论模型证明这些模式并非技术伪影或生物学机制所致,而是有限样本量(nc)导致的数学现象。该研究为低表达基因数据分析提供新视角,相关理论可精确预测FF(Fano factor)与均值的关系曲线,成果发表于《npj Systems Biology and Applications》。
基因表达的随机性一直是生命科学领域的核心问题,单细胞技术的突破让科学家们得以观察细胞间转录本的异质性。然而,当研究人员绘制不同基因的均值-Fano因子(FF,方差与均值之比)散点图时,意外发现数据点竟呈现规律性曲线排列——这种高度有序的模式与基因表达固有的随机性形成鲜明对比。这一现象在酵母、小鼠和人类数据中重复出现,涉及MERFISH(多重抗误差荧光原位杂交)和五种单细胞RNA测序(scRNA-seq)平台,暗示其背后可能存在普适性原理。
上海交通大学的曹志兴团队与爱丁堡大学的Ramon Grima合作,通过数学建模揭示了这些模式本质上是有限样本量导致的统计效应。研究发现,当基因表达均值<1时,数据点会沿着理论预测的曲线簇分布:Curve 0对应所有细胞仅有0或1个转录本(伯努利分布),Curve k(k≥1)则对应恰好k个细胞含有2个转录本。理论公式FF=1-?n?+2k/(nc?n?)精确预测了所有数据集中的曲线形态,其中nc为细胞样本量。更惊人的是,纵坐标呈现1/nc的量子化特征——这与转录本计数必须为整数的离散性质直接相关。
研究采用的关键技术包括:1)六种单细胞转录组技术(10x Genomics v3、Smart-seq3等)的跨平台数据比对;2)基于负二项分布的转录爆发参数估计;3)有限样本统计理论建模。这些方法使研究人员能系统排除技术偏差的干扰,聚焦于数学本质的分析。
主要研究结果包括:
确定性模式的普遍性
在均值-FF图中,所有数据集均显示从左至右单调递减的曲线簇。通过量化分析发现,相邻数据点的垂直间距Δy严格遵循1/nc的倍数关系,其中80%情况为基本单位1/nc。
曲线分类的生物学解释
基因按转录本分布模式严格分层:Curve 0基因在所有细胞中仅含0/1个转录本;Curve 1基因有且仅有1个细胞含2个转录本;Curve 2基因则恰好有2个细胞含2个转录本。这种分层与基因功能无关,完全由样本离散性决定。
理论预测的普适性
推导的方程?n?=(1-FF+√[(8k+nc(FF-1)2)/nc])/2完美拟合所有技术平台数据,且证明任何离散分布均满足?n?≥1-FF的不等式,解释了散点图左下角的空白三角区。
这项研究颠覆了传统认知:看似复杂的转录组数据模式,实则是有限样本离散性的直接体现。其意义在于:1)为单细胞数据分析提供新的解释框架,避免将统计假象误认为生物学信号;2)建立样本量nc与数据分辨率的定量关系,指导实验设计;3)揭示低表达基因(均值<1)数据分析需要特殊处理。该成果对精准解析转录爆发动力学、区分技术噪声与真实生物变异具有重要价值,也为其他离散型单细胞数据(如蛋白质计数)分析提供范式参考。
生物通微信公众号
知名企业招聘