
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于覆盖度评分增强概率模型的纳米孔长读长转录组定量工具Oarfish提升量化精度
【字体: 大 中 小 】 时间:2025年07月16日 来源:Bioinformatics 4.4
编辑推荐:
本研究针对长读长RNA测序(long-read RNA-seq)技术中转录本定量准确性不足的问题,开发了新型概率模型工具Oarfish。通过引入覆盖度评分(coverage score)优化片段分配条件概率,在模拟和实验数据中验证其相较现有工具显著提升ONT/PacBio数据的转录本丰度估计精度。该研究为长读长技术在差异表达分析等下游应用提供了更可靠的量化基础,相关代码已开源。
随着第三代测序技术的快速发展,长读长RNA测序(long-read RNA-seq)因其能够捕获全长转录本的优势,正在成为转录组研究的重要工具。然而当前大多数方法聚焦于转录本鉴定,量化精度仍受限于长读长数据特有的技术挑战:较低的通量(相比短读长技术每个样本测序读数更少)、技术伪影以及缺乏片段化步骤导致的长度依赖性消失。这些因素使得长读长数据量化成为亟待解决的瓶颈问题,尤其在高错误率的牛津纳米孔(ONT)数据中更为突出。
针对这一挑战,马里兰大学帕克分校(University of Maryland, College Park)的研究团队在《Bioinformatics》发表了创新性研究成果。他们开发的Oarfish工具通过重构概率模型的核心组件,首次将覆盖度分布信息整合到片段分配概率计算中。该模型消除了传统短读长量化工具中的转录本长度偏差,同时引入覆盖均匀性约束条件,有效解决了图1所示的多重映射读段分配歧义问题。研究证实,这种建模策略使ONT直接RNA测序数据的Spearman相关系数提升至0.93,均方根误差(RMSE)降低至89.02,显著优于现有工具。
关键技术方法包含:(1)基于minimap2-rs的序列比对与AS(alignment score)评分系统;(2)将转录本分割为100bp区间计算覆盖度偏差δi;(3)采用逻辑函数P(δi,a)=1/(1+e-aδi)动态调整区域分配概率;(4)EM算法优化转录本丰度参数θ。实验数据涵盖Hct116细胞系ONT数据、UHRR标准品PacBio数据及TEQUILA-seq新技术数据集。
【模型构建】
通过图2所示的改进版图形模型,将覆盖度分布CDm作为观测变量引入。与Li等(2010)的短读长模型相比,新模型移除长度依赖项,代之以覆盖均匀性约束。关键创新点体现为Pr(SEn=senj|Tn=j)概率项,该值通过计算读段覆盖区间的平均覆盖偏差概率获得,促使模型倾向于选择能产生更均匀覆盖的转录本作为读段来源。
【性能验证】
在模拟数据测试中,Oarfish(cov)版本在ONT直接RNA数据上实现Spearman 0.93 vs Bambu 0.82的显著优势(表2)。特别值得注意的是,对短读长量化不确定性高(InfRV值大)的转录本,其Pearson相关性仍保持0.98(图4)。在PacBio HiFi数据中,虽然各方法差距缩小,但Oarfish的NRMSE(0.70)仍比次优方法低63%。
【技术优势】
作为目前唯一实现动态覆盖建模的工具,Oarfish在保持计算效率(6-22分钟/样本)的同时,内存占用仅约5GB,远低于ESPRESSO的160GB需求(图3)。对"主要转录本"(major transcripts)的分析显示,其MARD(mean absolute relative difference)值最低达0.03,证实模型对高表达异构体的精准捕获能力。
该研究的突破性在于首次系统性地解决了长读长量化中的覆盖异质性问题。通过将生物学家对图1案例的直观判断转化为可计算的概率项,Oarfish为长读长数据提供了更接近生物学真实的量化结果。研究者指出,未来可通过动态更新覆盖模型进一步优化性能,而当前BSD 3-clause许可的开源实现已为社区提供了可靠的基础工具。这项工作标志着长读长转录组分析从"定性发现"迈向"精确定量"的关键一步,为单细胞异构体分析等前沿应用铺平了道路。
生物通微信公众号
知名企业招聘