IGLoo:解锁淋巴母细胞系免疫球蛋白重链基因座奥秘的创新工具

【字体: 时间:2025年05月02日 来源:Cell Reports Methods 4.3

编辑推荐:

  本文介绍了 IGLoo 这一软件工具,它能分析淋巴母细胞系(LCLs)中免疫球蛋白重链(IGH)基因座的体细胞 V (D) J 重组事件,评估和改进 IGH 基因座的组装质量,为研究 IGH 基因座多样性及相关免疫机制提供了有力支持。

  

研究背景


免疫球蛋白(IG)基因座对于 B 细胞受体(BCRs)和抗体(Abs)的发育至关重要,其在适应性免疫系统中发挥着关键作用。哺乳动物基因组通常包含三个 IG 基因座,其中 IGH 基因座由可变(V)、多样(D)、连接(J)和恒定(C)基因组成 。在 B 细胞成熟过程中,会发生 V (D) J 重组,即随机选择一个 V、D(仅 IGH 基因座有)和 J 基因片段并连接形成重排的 V (D) J 片段,这一过程产生了多样化的抗体库 。

淋巴母细胞系(LCLs)在基因组学研究中应用广泛,因其易于制备和维护,且体细胞突变率低 。然而,LCLs 的 IG 基因座存在技术挑战,其包含生殖系和体细胞重排单倍型的混合,使得 IG 基因的基因分型和组装困难 。尽管此前有研究尝试对人类 IG 基因座进行分析,但仍缺乏准确分析 LCL 数据中 IG 基因座的工具 。

人类泛基因组参考联盟(HPRC)旨在构建代表全球遗传多样性的人类泛基因组参考,其第一年发布的 47 个样本均来自 LCLs 。但这些样本的 IG 基因座组装质量及受 LCL 输入的影响情况尚不清楚 。

IGLoo 工具介绍


IGLoo 是一款用于评估和改进 LCL 测序数据中 IGH 基因座代表性的工具包。它包含三个模块:IGLoo --read、IGLoo --asm 和 IGLoo --ReAsm。

IGLoo --read 模块用于识别和量化样本读取比对中存在的 V (D) J 重组事件。由于 V (D) J 重组在选定的 V、D、J 基因的重组信号序列(RSSs)处起始和终止,携带 V (D) J 重组事件的读取通常代表从一个特定 RSS 到另一个 RSS 的缺失 。该模块利用 PacBio 单分子高保真(HiFi)测序数据的优势,其长读取能够覆盖重组事件并提供序列上下文 。同时,采用多参考策略,将读取比对到 GRCh37、GRCh38 和 T2T-CHM13 三个参考基因组,以最大化显示 V (D) J 重组证据的 HiFi 读取数量 。通过分析分裂比对,确定最可能的比对结果来报告重组事件,并计算细胞系的基因使用情况和克隆性 。

IGLoo --asm 模块用于分析基因组组装中的 IGH 基因座。它调用 gAIRR-suite 对组装进行注释,识别重叠 IGH 基因片段的重叠群,并过滤掉可能包含 “孤立” 基因的重叠群 。通过将过滤后的重叠群与生殖系 IGH 基因座进行比较,定位 V (D) J 连接点和断点,识别缺失的 IGH 基因片段,从而评估组装质量 。

IGLoo --ReAsm 模块通过去除代表体细胞单倍型的读取并重新组装数据集,改进 IGH 基因座的生殖系组装质量 。它先对原始 HiFi 读取进行预处理,根据 IGLoo --read 的分析结果,收集显示 V (D) J 重组断点证据的读取并在断点处分裂,同时通过创建映射到 J 和 D 基因之间区域的读取的人工副本来富集读取 。然后使用 Hifiasm 进行从头组装,再利用 MaSuRCA 进行参考引导组装,最后屏蔽掉缺乏读取支持的区域 。

研究结果


应用 IGLoo 工具对 HPRC 的 47 个 LCL 样本进行分析,得到了一系列重要结果。

在 V (D) J 重组事件分析方面,确定了常见的重组基因。在完整的 V (D) J 重组和部分 D-J 重组事件中,最广泛使用的 J 基因是 IGHJ4;在 D-J 重组事件中,最广泛使用的 D 基因是 IGHD3-22;在完整 V (D) J 重组事件中,最广泛使用的 V 基因是 IGHV3-23 和 IGHV3-33 。同时,发现了一些在传统方法中难以检测到的基因使用模式,如 11-nt 长的 D 基因 IGHD7-27 参与了部分 V (D) J 重组事件 。

通过计算辛普森指数(SI)评估细胞系的克隆性,发现样本的克隆性呈现连续的频谱,多数样本具有一定程度的多克隆性 。定义 SI 大于 0.25 的样本为单克隆,小于 0.125 的为多克隆,据此对样本进行了分类 。

此外,还鉴定出了非规范的 V (D) J 重组事件,包括涉及至少一个额外 D 基因重组的多 D 基因重组和除 V-D 或 D-J 重组外的倒位事件 。这些非规范重组事件在 25 个样本中存在,虽然占比仅 5%,但对理解 IGH 基因座的变异机制具有重要意义 。

在对 HPRC 组装的评估中,发现 V (D) J 重组导致组装在 IGH 基因座不连续,且存在基因丢失的情况 。IGLoo --asm 分析显示,部分单克隆和多克隆细胞系的组装质量存在差异,且 IGH 基因座中的重复区域会影响组装准确性,产生断点和 V (D) J 连接点等组装假象 。

IGLoo --ReAsm 模块显著改进了 IGH 基因座的组装。与 HPRC 组装相比,重新组装的 IGH 基因座平均每个个体覆盖的 IGH 基因片段增加了 10 个 。通过评估重新组装基因组的分相质量和用独立的 Illumina 短读数据集验证新组装的 IGH 基因片段,证实了 IGLoo --ReAsm 模块的有效性 。与另一种分析方法 IGenotyper 相比,IGLoo --ReAsm 在恢复 IGH 基因片段方面表现更优 。

讨论


IGLoo 软件工具填补了当前 HiFi 数据从头组装工具的空白,能够深入研究 LCLs 中 IGH 基因座的生殖系和体细胞特征 。通过对非规范 V (D) J 重组事件的研究,有助于区分由 V (D) J 重组驱动的变异和生殖系结构变异(SV) 。

在组装方面,从头组装预处理读取改进了 D 基因座的代表性,但导致了一些 J 基因的缺失 。参考引导组装虽然能够恢复 D 和 J 基因,但 MaSuRCA 有时会偏向参考基因组,因此构建个性化参考基因组至关重要 。随着更多 IG SV 的分析和编目,IGLoo 将能够生成更准确的个性化参考基因组 。

未来,研究 IGLoo 方法对 IG 轻链基因座的适用性以及其他体细胞重组事件(如类别转换重组事件)将具有重要意义 。虽然 IGLoo 主要针对 HiFi 数据集设计,但 IGLoo --read 模块有潜力适应双端短读数据和牛津纳米孔技术(ONT)长读数据,但在应用于 ONT 数据时需要进一步验证 。

尽管基于非 LCL 来源(如外周血单个核细胞 PBMCs)构建 IG 基因座参考可能更简单,但 LCLs 在现有研究中广泛存在,IGLoo 为研究人员理解 IGH 基因座多样性提供了有价值的见解 。

研究局限性


IGLoo 专为 HiFi 读取数据集设计,虽然提供了 ONT 选项用于 IGLoo --read,但在进一步验证之前,不建议将 IGLoo --ReAsm 模块用于 ONT 数据 。此外,尽管 IGLoo --ReAsm 能够从 LCL - 基于的组装中恢复 IGH 基因,但重新组装的基因座往往不能完全恢复到生殖系形式,尤其是当 IGH 基因座的某些区域在细胞系中完全丢失时 。

资源可用性


本研究分析的是公开可用的数据,未生成新的试剂。47 个 HPRC 样本的个人组装、HiFi 原始读取、读取比对以及样本的亲本 Illumina 读取和读取比对可从公共 HPRC S3 存储桶下载 。IGLoo 软件可在https://doi.org/10.5281/zenodo.15048412https://github.com/maojanlin/IGLoo上获取,遵循 MIT 许可证 。如需进一步重新分析本研究结果的相关信息,可向主要联系人 Ben Langmead(langmea@cs.jhu.edu)索取 。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号