
-
生物通官微
陪你抓住生命科技
跳动的脉搏
RNAseq数据缺失性的生物学根源:环境暴露诱导基因对表达分析缺失值的影响
【字体: 大 中 小 】 时间:2025年08月23日 来源:Scientific Reports 3.9
编辑推荐:
本研究针对RNAseq数据分析中普遍存在的基因表达缺失值问题,首次系统探讨了环境暴露诱导基因对缺失模式的贡献。团队通过66例肺腺癌及癌旁组织的RNAseq数据分析,发现高缺失率基因中存在表达水平异常升高的亚群,提出"真实生物学缺失(TBM)"概念,并证实烟草暴露可通过调控免疫相关基因表达加剧数据缺失。该研究为RNAseq数据质控提供了新范式,强调需区分技术性缺失与TBM以避免分析偏差。
在基因组学研究的浪潮中,RNAseq技术犹如一把精密的手术刀,让科学家能够逐字解读生命密码的转录本信息。然而这把利器却有个恼人的"盲区"——约30%的基因表达数据会神秘消失。传统观点将这些缺失归咎于技术局限,认为低表达基因因达不到检测阈值而随机丢失。但Olga Y. Gorlova团队在《Scientific Reports》发表的研究却撕开了这个认知缺口:当我们在处理缺失数据时,是否忽略了生物学本身制造的"消失术"?
研究团队收集了66例肺腺癌患者的肿瘤-癌旁配对样本,采用Illumina NovaSeq 6000平台进行高通量测序(最低80M reads/样本),通过STAR比对和RSEM定量获得TPM/FPKM表达矩阵。创新性地将缺失值定义为"某基因在部分样本为零表达而其他样本可检测"的现象,建立了吸烟状态与缺失模式的关联分析框架。
不同RNA物种的缺失特征
分析发现92%的RNA属于四类:蛋白编码基因、lncRNA、加工/未加工假基因。其中蛋白编码基因缺失率最低(9.01±0.13),未加工假基因最高(49.05±0.44),揭示RNA类型直接影响缺失概率。
表达水平与缺失率的悖论关系

虽然整体呈现表达水平与缺失率负相关,但在缺失值>100的极端区域出现表达反弹。这种"双峰现象"暗示高缺失基因中存在两个亚群:低表达的技术性缺失基因和高表达的生物学缺失基因。
烟草暴露的调控效应
吸烟者比非吸烟者整体缺失率高1.5%(p=0.01),其中免疫相关基因表现最显著。202个高表达却存在缺失的基因(HEWM)中,体液免疫应答基因富集(FDR=0.004),其吸烟/非吸烟表达差异达0.581±0.042(p=5.9×10-13),证实烟草可诱导特定基因在部分个体中爆发性表达。
这项研究颠覆性地提出"真实生物学缺失(TBM)"概念,指出环境暴露会通过诱导基因异质性表达制造系统性数据缺失。针对1%的HEWM基因,研究建议建立"缺失值分类处理"新标准:先通过中位数表达筛选潜在TBM基因,再进行暴露关联分析和功能注释,最终将确认的TBM基因排除在常规填补分析之外。这种精细化处理策略将有效避免将"生物学静默"误判为"技术噪声",为精准医学研究提供更可靠的数据基石。
生物通微信公众号
知名企业招聘