MntJULiP与Jutils:基于协变量建模的RNA-seq差异剪接分析方法及其在GTEx脑转录组研究中的应用
《NAR Genomics and Bioinformatics》:MntJULiP and Jutils: differential splicing analysis of RNA-seq data with covariates
【字体:
大
中
小
】
时间:2025年11月04日
来源:NAR Genomics and Bioinformatics 2.8
编辑推荐:
本研究针对复杂RNA-seq数据中多重混杂因素(如性别、年龄等)干扰差异剪接分析的难题,开发了MntJULiP与Jutils工具的协变量扩展功能。通过贝叶斯线性混合模型校正混杂因素,MntJULiP在模拟数据中实现>90%的精确度,显著优于同类工具。应用GTEx脑转录组数据成功解析了年龄与性别对剪接模式的影响,发现额叶皮质中存在随年龄差距增大而增强的剪接差异模式,并识别出特定个体的独特剪接程序。该研究为群体水平剪接调控机制研究提供了强有力的方法论支持。
在生命科学领域,RNA剪接作为基因表达调控的关键环节,其异常与多种疾病的发生发展密切相关。随着大型群体基因组计划(如GTEx)的推进,研究人员能够获取包含年龄、性别、种族等多重混杂因素的复杂RNA-seq数据集。然而,传统差异剪接分析方法(如LeafCutter、rMATS等)在应对这些混杂因素时显得力不从心,往往导致假阳性结果偏高,严重制约了对真实生物学信号的挖掘。
针对这一技术瓶颈,约翰斯·霍普金斯大学的研究团队在《NAR Genomics and Bioinformatics》发表了最新研究成果,对其自主研发的MntJULiP和Jutils工具进行了功能升级。研究团队创新性地将协变量线性组件整合至贝叶斯混合模型中,开发出能够同时检测剪接比率(DSR)和剪接丰度(DSA)差异的双重分析框架。该技术通过零膨胀负二项分布(ZINB)模型处理DSA分析,利用狄利克雷多项分布(DM)模型处理DSR分析,并采用PyStan实现贝叶斯推断。特别值得关注的是,该方法能够生成经协变量校正的PSI(Percent Spliced In)值和计数矩阵,为后续可视化分析提供纯净数据。
关键技术方法包括:基于贝叶斯混合模型的协变量校正算法、零膨胀负二项分布与狄利克雷多项分布统计建模、PyStan贝叶斯推断框架、以及支持多条件比较的差异剪接检测流程。分析数据来源于GTEx数据库中13个脑区域的1398个RNA-seq样本,其中额叶皮质样本120例(男性83例,女性37例),涵盖20-70岁年龄分层。
研究团队通过模拟数据集系统验证了协变量模型的可靠性。在包含“疾病状态”和“生物性别”协变量的模拟实验中,MntJULiP在DSR pairwise比较中F值达0.744,精确度高达0.945,显著优于LeafCutter(F值0.680)、DRIMSeq和DEXSeq。值得注意的是,经协变量校正后,PCA图显示沿第二主成分(PC2)的性别相关变异被有效消除,证实了模型去混杂效应的有效性。在DSA分析中,MntJULiP同样以0.886的F值超越DESeq2(0.843和0.727),展现出卓越的综合性能。
对GTEx脑样本的三层次分析揭示出重要生物学发现:首先,不同脑区(小脑、皮质、基底节区)的剪接模式差异不受性别、年龄协变量影响,符合预期。其次,额叶皮质年龄分层比较显示,年龄差距越大剪接差异越显著,这与衰老过程中剪接失调的既往报道一致。特别值得注意的是,当校正性别因素后,“20岁组vs40岁组”比较检测到931个差异剪接基因,较未校正分析(760个)新增多个功能类别,包括内吞作用、胰岛素分泌、RHO GTP酶信号通路等。更引人注目的是,这些新增基因中包含45个RNA结合蛋白(如CASC3、SRSF4等剪接体组分),提示不同年龄组间可能存在剪接机制本身的差异。
通过对比83例男性与37例女性额叶皮质样本,研究发现校正“死亡年龄”协变量后,Jutils热图清晰显示出29个样本(13女16男)具有独特的剪接模式。这81个特征基因富集于内吞作用、膜运输、BDNF信号通路等神经元功能相关类别。该亚群中女性比例异常偏高(13:16 vs 总体37:83),暗示可能存在与衰老进程相关的特异性剪接程序。进一步功能分析表明,DSR分析经年龄校正后差异基因数从165增至282,新增“膜组织”“突触调控”等性别相关功能类别;而DSA分析则相反,差异基因从90减至32,说明程序有效去除了年龄混杂因素导致的假阳性。
本研究开发的协变量校正方法有效解决了复杂RNA-seq数据中混杂因素干扰的业界难题。MntJULiP凭借其高精度(>90%)和灵活性(支持多变量、多条件分析),在模拟数据和真实GTEx数据中均表现出超越同类工具的性能。特别是在脑老化研究中发现的年龄相关剪接梯度变化和性别特异性剪接程序,为神经退行性疾病的分子机制研究提供了新视角。该工具集的推广应用将极大促进群体基因组学中剪接调控网络的精准解析,为疾病生物标志物发现和精准医疗提供技术支撑。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号