CloseRead工具:长读长基因组组装中免疫球蛋白位点错误评估与校正的新方法

【字体: 时间:2025年05月21日 来源:Genome Biology 10.1

编辑推荐:

  为解决复杂基因组区域(如免疫球蛋白IG位点)在长读长测序组装中的准确性问题,研究人员开发了CloseRead工具,通过多指标可视化评估74种脊椎动物基因组组装质量,发现58.1%的IGH位点存在错误,并通过局部重组装成功校正。该研究为基因组组装质量控制和复杂区域精准解析提供了新方法,发表于《Genome Biology》。

  

基因组组装技术的进步使得长读长测序(如PacBio HiFi)能够跨越复杂重复区域,但免疫球蛋白(Immunoglobulin, IG)位点因其高度重复性和结构复杂性仍是组装难点。IG位点包含抗体编码基因(IGH、IGK、IGL),其V(D)J重组机制对免疫多样性至关重要。然而,现有评估工具(如QUAST、BUSCO)难以检测IG位点的组装错误,且单倍型未解析(haplotype-unresolved)组装中错误率更高。这一问题限制了免疫基因组学研究和跨物种比较。

为解决这一挑战,来自美国宾夕法尼亚州立大学、康奈尔大学等机构的研究团队开发了CloseRead工具,系统评估了74种脊椎动物(61种哺乳动物和13种爬行动物)基因组中IG位点的组装质量,发现58.1%的IGH位点存在序列缺失或覆盖断裂。通过De Bruijn图分析和局部重组装,研究人员成功校正了墨西哥灰狼(Canis lupus baileyi)1.5 Mb的倒位错误,并补充了北极狼(Canis lupus orion)和菲律宾鼯猴(Cynocephalus volans)缺失的IG序列。该研究发表于《Genome Biology》,为复杂基因组区域的精准组装提供了方法论突破。

关键技术包括:1)基于Minimap2的HiFi reads比对;2)IgDetective工具注释IG基因;3)双视角(read-oriented和basepair-oriented)错误量化;4)La Jolla Assembler(LJA)生成De Bruijn图指导重组装;5)跨物种组装质量统计(覆盖度、错配率等)。

结果

方法学概述
CloseRead通过比对HiFi reads与组装序列,结合IgDetective定位IG位点边界,检测错配(>1%差异)和覆盖断裂(<2 reads支持),最终通过可视化报告错误区域。

错误类型分析
在74个物种中,50%的单倍型未解析组装存在IG位点序列缺失(如北极狼alternate haplotype缺失1.4 Mb),而57.7%的单倍型解析(haplotype-resolved)组装存在覆盖断裂。墨西哥灰狼的覆盖断裂揭示了1.5 Mb倒位错误,经LJA重组装后纠正。

案例研究

  1. 序列缺失:北极狼和菲律宾鼯猴的alternate haplotype分别缺失69和77个IG基因,经De Bruijn图分析补充后,基因支持率提升至100%。
  2. 覆盖断裂:墨西哥灰狼的8 kb覆盖断裂与端粒重复序列(CCCTAA)错误连接相关,校正后组装连续性显著改善。

讨论与意义
该研究揭示了现有基因组组装在IG位点的系统性缺陷,尤其是单倍型未解析组装中高达50%的序列缺失率。CloseRead的创新性在于:1)突破现有工具(如CRAQ)对“完整组装”的假设,能检测部分单倍型缺失;2)结合De Bruijn图实现错误溯源。研究为免疫基因组学、疫苗开发和跨物种进化分析提供了高质量数据基础,并倡导迭代组装(iterative assembly)策略以提升复杂区域准确性。未来需进一步自动化该流程并整合至主流组装管线(如VGP)。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号