Clair3-RNA:基于深度学习的纳米孔长读长RNA测序小变异识别新方法
《Nature Communications》:Clair3-RNA: a deep learning-based small variant caller for long-read RNA sequencing data
【字体:
大
中
小
】
时间:2025年12月23日
来源:Nature Communications 15.7
编辑推荐:
为解决长读长RNA测序(lrRNA-seq)变异识别中高错误率、覆盖度不均和RNA编辑事件干扰等难题,香港大学团队开发了首个深度学习变异识别工具Clair3-RNA。该工具通过覆盖度归一化、单倍型定相等创新技术,在PacBio和ONT平台分别实现98.59%和97.16%的SNP识别F1值,显著优于现有方法,为转录组变异分析提供了精准解决方案。
在基因组学研究领域,RNA测序(RNA-seq)技术如同一位高精度的"转录组摄影师",能够捕捉细胞中基因表达的动态画面。然而传统短读长测序就像用碎片拼图,难以还原全长转录本的真实面貌。随着太平洋生物科学(PacBio)和牛津纳米孔(ONT)等长读长测序技术的崛起,科研人员终于获得观测全长转录本的"超广角镜头",但新的挑战也随之浮现——这些技术固有的高错误率(1-5%)、转录本覆盖度不均以及RNA编辑事件(如A-to-I编辑)的干扰,使得从测序噪音中精准识别真实基因变异变得异常困难。
目前主流变异识别工具多针对DNA测序数据设计,直接应用于RNA数据时效果不佳。虽然已有研究尝试通过序列比对转换等方式改造DNA变异识别工具,但尚未出现专为长读长RNA测序(lrRNA-seq)特性量身定制的解决方案。这种技术空白严重制约了科研人员利用lrRNA-seq数据开展精准转录组变异分析的潜力。
近日,《Nature Communications》发表了香港大学团队开发的Clair3-RNA,这是首个基于深度学习的长读长RNA测序小变异识别工具。该研究通过多任务双向长短期记忆(Bi-LSTM)神经网络架构,结合创新性的覆盖度归一化、变异合子性翻转和RNA编辑位点标记等技术,在PacBio Iso-Seq、MAS-Seq和ONT dRNA004等多个平台上实现了突破性性能。特别值得关注的是,通过引入单倍型定相信息,该工具在至少有10条支持读长且忽略合子性的条件下,SNP识别F1值最高可达98.59%,为转录组变异分析树立了新标杆。
关键技术方法方面,研究团队利用基因组标准样本(GIAB)HG002数据集进行模型训练,采用覆盖度归一化策略平衡RNA测序数据特有的表达量差异,通过REDIportal数据库整合已知RNA编辑位点信息,并创新性地将单倍型定相特征融入神经网络输入。针对PacBio和ONT平台特性,研究还优化了minimap2剪切比对参数,系统评估了不同测序技术(包括ONT最新SQK-RNA004试剂盒)对变异识别性能的影响。
研究团队创新性地定义了RNA测序特有的可调用区域标准,通过结合测序覆盖度要求与GIAB高置信区域,建立了公平的评估框架。该方法充分考虑了RNA数据中由于等位基因特异性表达导致的合子性翻转现象,为准确评估工具性能奠定基础。
在六种ONT数据集(包括cDNA、dRNA002和最新dRNA004)的测试中,Clair3-RNA展现出显著优势。使用dRNA004数据时,在覆盖度≥4的条件下SNP F1值达到91.00-91.73%,较LongcallR和Clair3分别提高约30%和15%。特别值得注意的是,dRNA004试剂盒将平均错误率从9.7%降至1.8%,数据通量提升6倍,直接带动了所有工具性能的普遍提升。
在PacBio Iso-Seq和MAS-Seq数据上,Clair3-RNA同样表现卓越,SNP F1值稳定在91%以上。研究还发现,使用minimap2比对的专用剪切模式相比pbmm2能进一步降低25.42%的假阳性,这一发现为长读长RNA数据分析提供了重要方法学参考。
研究表明,提高最低覆盖度要求可有效提升识别精度——当覆盖度从4提升至10时,ONT dRNA004数据的精确度和召回率分别提高1.87%和3.25%。这一发现为不同覆盖度数据的质量控制提供了实用阈值参考。
研究人员发现忽略合子性判断可平均提高2.43-2.88%的F1值,这一现象源于RNA数据中单倍型优势表达导致的合子性翻转。该发现提示在临床RNA数据分析中,需要谨慎解读合子性信息。
在GIAB定义的困难区域(如低复杂度区域、片段重复区)中,Clair3-RNA表现出更强鲁棒性。特别是在编码序列(CDS)区域,其SNP F1值达到94.58%,显著优于对比工具。
Indel识别仍是技术难点,Clair3-RNA在PacBio平台上达到89.42%的F1值,但在ONT平台上仅为66.50%。这种差异主要源于纳米孔数据中不同长度Indel信号聚集对模型判断的干扰。
通过整合REDIportal数据库中经多源验证的RNA编辑位点,工具可有效区分真实变异与编辑事件。在PacBio数据中,这一策略帮助识别了5,677个高质量编辑位点。
针对RNA编辑中最常见的A-to-G和T-to-C假阳性,Clair3-RNA展现出卓越的区分能力,其假阳性数量仅为Clair3的1/10。结合REDIportal标注,可进一步将假阳性减少62.77%。
研究首次证实单倍型定相在lrRNA-seq中的有效性,通过将12个定相特征融入神经网络,使SNP和Indel的F1值分别提升1.52%和5.86%。这一突破为利用长读长优势提升RNA数据分析精度开辟了新途径。
在GENCODE注释的蛋白质编码基因中,Clair3-RNA在PacBio和ONT平台上分别实现58.1%和60.0%的基因无变异识别错误,展现了在功能基因组研究中的应用潜力。
研究结论表明,Clair3-RNA通过深度学习架构与RNA测序特性的深度融合,有效解决了lrRNA-seq变异识别中的关键技术瓶颈。工具在PacBio和ONT多平台上的稳定性能,为转录组变异分析提供了可靠解决方案。特别是其对RNA编辑事件的识别能力和单倍型定相技术的成功应用,为研究等位基因特异性表达和RNA修饰等功能基因组学问题提供了新可能。
尽管在Indel识别和剪切位点附近变异检测方面仍有提升空间,但该研究无疑为长读长RNA测序数据分析树立了新标准。随着测序技术的持续进步和算法模型的不断优化,Clair3-RNA有望成为转录组变异分析领域的核心工具,推动精准医学和功能基因组学研究的深入发展。该研究的开源策略(BSD 3-Clause许可证)也将促进算法透明化和科学共同体协作,助力生命医学研究创新。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号