RNAseq数据缺失性的生物学根源:环境暴露诱导基因对表达分析缺失值的影响

【字体: 时间:2025年08月23日 来源:Scientific Reports 3.9

编辑推荐:

  本研究针对RNAseq数据分析中普遍存在的基因表达缺失值问题,首次系统探讨了环境暴露诱导基因对缺失模式的贡献。团队通过66例肺腺癌及癌旁组织的RNAseq数据分析,发现高缺失率基因中存在表达水平异常升高的亚群,提出"真实生物学缺失(TBM)"概念,并证实烟草暴露可通过调控免疫相关基因表达加剧数据缺失。该研究为RNAseq数据质控提供了新范式,强调需区分技术性缺失与TBM以避免分析偏差。

  

在基因组学研究的浪潮中,RNAseq技术犹如一把精密的手术刀,让科学家能够逐字解读生命密码的转录本信息。然而这把利器却有个恼人的"盲区"——约30%的基因表达数据会神秘消失。传统观点将这些缺失归咎于技术局限,认为低表达基因因达不到检测阈值而随机丢失。但Olga Y. Gorlova团队在《Scientific Reports》发表的研究却撕开了这个认知缺口:当我们在处理缺失数据时,是否忽略了生物学本身制造的"消失术"?

研究团队收集了66例肺腺癌患者的肿瘤-癌旁配对样本,采用Illumina NovaSeq 6000平台进行高通量测序(最低80M reads/样本),通过STAR比对和RSEM定量获得TPM/FPKM表达矩阵。创新性地将缺失值定义为"某基因在部分样本为零表达而其他样本可检测"的现象,建立了吸烟状态与缺失模式的关联分析框架。

不同RNA物种的缺失特征

分析发现92%的RNA属于四类:蛋白编码基因、lncRNA、加工/未加工假基因。其中蛋白编码基因缺失率最低(9.01±0.13),未加工假基因最高(49.05±0.44),揭示RNA类型直接影响缺失概率。

表达水平与缺失率的悖论关系

虽然整体呈现表达水平与缺失率负相关,但在缺失值>100的极端区域出现表达反弹。这种"双峰现象"暗示高缺失基因中存在两个亚群:低表达的技术性缺失基因和高表达的生物学缺失基因。

烟草暴露的调控效应

吸烟者比非吸烟者整体缺失率高1.5%(p=0.01),其中免疫相关基因表现最显著。202个高表达却存在缺失的基因(HEWM)中,体液免疫应答基因富集(FDR=0.004),其吸烟/非吸烟表达差异达0.581±0.042(p=5.9×10-13),证实烟草可诱导特定基因在部分个体中爆发性表达。

这项研究颠覆性地提出"真实生物学缺失(TBM)"概念,指出环境暴露会通过诱导基因异质性表达制造系统性数据缺失。针对1%的HEWM基因,研究建议建立"缺失值分类处理"新标准:先通过中位数表达筛选潜在TBM基因,再进行暴露关联分析和功能注释,最终将确认的TBM基因排除在常规填补分析之外。这种精细化处理策略将有效避免将"生物学静默"误判为"技术噪声",为精准医学研究提供更可靠的数据基石。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号