深度学习联合长短读长测序数据提升变异检测准确性的创新研究

【字体: 时间:2025年07月18日 来源:Cell Reports Methods 4.3

编辑推荐:

  本研究通过开发深度学习模型DeepVariant的混合版本,解决了短读长(Illumina)和长读长(Nanopore)测序技术单独使用时在变异检测中的局限性。研究人员整合了GIAB项目中7个健康个体的100TB原始测序数据,训练出能同时处理两种数据的混合模型。结果表明,采用15x浅层混合测序策略时,单核苷酸变异(SNV)和插入缺失(INDEL)检测的F1分数分别达到0.9980和0.9454,优于单一技术深度测序。该方法为罕见遗传病筛查提供了更经济的解决方案,同时实现了小变异与结构变异(SV)的联合检测。

  

在罕见遗传病诊断领域,基因组测序技术正面临关键瓶颈。尽管全球约3亿人受罕见病影响,其中80%与遗传因素相关,但现有测序技术各有局限:短读长测序(Illumina)虽能准确检测小变异,却在复杂基因组区域表现不佳;长读长测序(Nanopore)虽能覆盖这些区域,但较高的错误率(5%-15%)影响小变异检测精度。这种技术割裂导致25%-35%的患者无法获得明确分子诊断,凸显了开发整合方案的紧迫性。

意大利Telethon遗传与医学研究所(TIGEM)的Gennaro Gambardella团队在《Cell Reports Methods》发表创新研究,通过深度学习技术桥接这一技术鸿沟。研究人员收集了GIAB、HPRC和ONTOD项目中7个健康个体(HG001-HG007)超过100TB的原始Nanopore数据,开发了统一处理流程honey_pipes。基于这些数据,他们改造Google的DeepVariant算法,训练出能同时解析Illumina短读长和Nanopore长读长数据的混合模型,其中R10.4.1化学版本表现尤为突出。

关键技术包括:1) 建立标准化数据处理流程,统一处理R9.4.1和R10.4.1化学版本的Nanopore数据;2) 采用数据增强策略生成2亿训练样本;3) 开发混合DeepVariant模型(honey_DeepVariant),使用Nvidia GPU进行11天训练;4) 通过GIAB基准数据集验证性能,采用hap.py和truvari工具进行严格评估。

主要研究发现

联合建模提升检测精度

在HG003个体测试中,混合30x Nanopore+20x Illumina数据时,SNV检测F1分数达0.9980,较单一技术提升显著。特别是在串联重复区(TRR)和低复杂度区域(LMR),混合模型自动选择最优技术来源数据,实现检测性能的协同增强。

浅层混合测序的经济性突破

通过覆盖度梯度实验发现,15x Illumina+15x Nanopore的浅层组合即可达到30x单一技术测序的精度水平。这种方案使全基因组测序成本降低约40%,同时保留结构变异检测能力,SVision工具在15x深度下F1分数达0.8129。

化学版本的性能差异

R10.4.1化学版本展现出更强的协同效应,其3D堆叠测序芯片和改良马达蛋白使单读准确率提升至Q20,而R9.4.1版本在INDEL检测中仍依赖短读长数据补充。

这项研究开创性地证明,深度学习驱动的混合测序策略能够突破现有技术壁垒。其价值体现在三个方面:诊断层面,通过统一分析流程避免多平台结果整合的复杂性;经济层面,浅层测序策略使大规模筛查成为可能;技术层面,为同时检测SNV和SV提供了标准化方案。随着Nanopore成本持续下降,该方法有望成为临床遗传检测的新标准,特别是对于目前难以诊断的罕见病患者群体。研究团队公开了所有代码(honey_pipes和honey_DeepVariant)及处理后的数据(SRA登录号PRJNA1191200),为领域发展提供了重要资源。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号