FracFixR:解决RNA测序分馏数据组成性偏差的统计框架及其在翻译调控研究中的应用

《Bioinformatics》:FracFixR: A compositional statistical framework for absolute proportion estimation between fractions in RNA sequencing data

【字体: 时间:2025年11月21日 来源:Bioinformatics 5.4

编辑推荐:

  本刊推荐:研究人员针对RNA分馏测序数据中因文库制备和测序深度导致的原始比例信息丢失问题,开发了FracFixR统计框架。该模型通过非负线性回归重建RNA分馏的真实组成比例,估计不可回收材料权重,并提供基于二项式GLM的差异比例检验方法。在合成数据和真实多糖体分析数据中的验证表明,该工具能准确恢复分馏权重(Pearson相关系数>0.85),成功识别B-ALL亚型间差异翻译转录本,为RNA亚细胞定位和翻译调控研究提供了关键计算方法支撑。

  
在分子生物学研究领域,RNA测序(RNA-seq)技术已成为捕捉细胞转录组快照的重要工具。然而当研究人员试图通过RNA分馏技术(如多糖体分析、核质分离等)获得更精细的基因表达调控信息时,却面临着一个根本性的组成性挑战:文库制备过程中的RNA丢失、测序深度差异以及无法完全捕获所有分馏样本,导致原始RNA分馏比例信息被掩盖。这种偏差在比较不同生物学条件(如应激反应或药物处理)时尤为明显,因为全局RNA分布变化会进一步扭曲分馏特异性RNA谱的比较结果。
传统分析方法如多糖体与单核糖体比值(P:M)或转录本频率比值(如多糖体沉降因子PSF)存在明显局限,它们假定全局分馏比例恒定,而这一假设在整体RNA分布发生变化时往往不成立。直接应用差异转录本丰度(DTA)分析方法(如DESeq2)也不适用,因为它们忽略了分馏样本是整体组成部分这一基本事实。标准归一化方法同样不足,因为当测序深度(回收率)模式不同时,其比例缩放假设会被违反。
针对这一方法论缺口,来自蒙彼利埃大学和澳大利亚国立大学的Alice Cleynen、Agin Ravindran和Nikolay Shirokikh团队开发了FracFixR——一个用于RNA分馏测序数据分析的组成性统计框架。该研究已发表在《Bioinformatics》期刊上。
FracFixR的核心创新在于通过非负最小二乘(NNLS)回归模型,利用精心选择的转录本重建原始分馏比例。该模型基于一个关键观察:对于任何分馏,测序深度因子sjf(或回收率)被假定为均匀影响所有转录本。通过建立观测计数与真实未观测计数之间的数学关系,FracFixR能够估计全局分馏权重αf = sj/sjf,校正单个转录本频率,并量化不可回收材料。
在技术方法层面,研究人员首先建立了描述整体与分馏RNA之间组成性关系的统计模型,使用NNLS回归解释总观测计数与观测分馏计数之间的关系。针对个体转录本比例估计,开发了基于分馏贡献的计算公式pijf = αfYijf/max(Yij, ∑fαfYijf)。为比较条件间差异,实现了二项式广义线性模型(GLM),检验零假设H0: pi1f = pi2f,并提供β-二项式Wald检验和基于logit的检验作为快速替代方案。验证方面,利用基于自然观察对齐读长分布合成的已知真实值数据,以及来自GM12878、REH和KOPN-8细胞系的多糖体分析真实数据进行性能评估。
FracFixR验证和测试结果表明,该框架在各种模拟场景下均能一致且准确地恢复全局分馏权重(包括"丢失"分馏),估计器不依赖于回收场景。即使在具有不对称性或数据丢失的挑战性条件下,FracFixR也能恢复单个转录本分配,Pearson相关系数接近1,RMSE < 0.17,离散度 < 0.15。转录本水平估计器的质量不依赖于比例场景也不依赖于总分馏的回收,但随着分馏测序深度的增加而显著改善。
FracFixR显著校正分馏RNA-seq数据中的相对转录本丰度。当应用于代表性子多糖体分析数据集(来自GM非癌细胞、REH和KOPN-8两种具有不同复发潜能的B-ALL亚型)时,FracFixR重建了每个样本的真实组成,包括未测序的"丢失"分馏,并揭示了跨细胞系的独特翻译参与模式。GM和REH细胞在重多糖体中显示出比KOPN-8更大的转录本代表性,表明与核糖体的整体参与水平更高。
使用FracFixR比较REH和KOPN-8细胞系间的每个转录本差异,揭示了许多具有细胞系特异性控制的转录本。在FracFixR实现的组合多糖体关联分析中,406个转录本在KOPN-8中与核糖体更相关,1,335个转录本在REH中与核糖体更相关。这些差异表达基因的基因本体(GO)分析揭示了不同的富集控制通路:REH GO富集于氨基酸生物合成、碳代谢、糖酵解/糖异生、剪接体通路和核质运输,而KOPN-8细胞显示核糖体组分和氧化磷酸化的显著富集。这些结果表明翻译调控在这些B-ALL亚型的表型和复发倾向中具有显著作用,而这一发现只有通过应用FracFixR才能在这些数据中揭示。
研究结论与讨论部分强调,FracFixR为分析分馏实验的RNA-seq数据提供了一个强大的统计框架,解决了从测序文库恢复真实分馏比例的基本组成性挑战。通过非负线性回归建模整体与分馏样本之间的关系,FracFixR能够准确估计全局分馏权重和单个转录本分布,包括经常被忽视的"丢失"分馏。该软件包执行条件间差异比例检验的能力使其便于识别RNA定位或多糖体关联中的条件特异性变化。FracFixR作为具有 straightforward 工作流程的开源R软件包实现,确保了研究RNA区室化、翻译调控和亚细胞定位的更广泛研究社区的可访问性。随着RNA分馏技术的不断发展和变得更加复杂,FracFixR提供了一个重要的计算工具,用于从这些复杂数据集中提取有意义的生物学见解,同时考虑文库制备和测序深度限制中的固有偏差。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号