
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于多任务深度学习的适应性免疫受体序列比对方法AlignAIR:提升抗体工程与免疫遗传学研究的新工具
【字体: 大 中 小 】 时间:2025年07月15日 来源:Nucleic Acids Research 16.7
编辑推荐:
本研究针对适应性免疫受体序列比对(AIRR-seq)中V(D)J重组和体细胞高频突变(SHM)带来的挑战,开发了深度学习工具AlignAIR。通过多任务学习框架和仿真数据训练,该工具在等位基因分配准确率(V基因94.58%、D基因84.44%)、序列分割(RMSE降低50%)和生产力评估(准确率99.38%)方面超越传统方法(IgBLAST/Partis),其潜在空间可解析SHM特征。研究为疫苗设计和抗体工程提供了关键分析工具,成果发表于《Nucleic Acids Research》。
免疫系统的奥秘藏在B细胞和T细胞表面那些千变万化的受体中,这些受体通过V(D)J基因片段的重排和体细胞高频突变(SHM),形成足以识别无数病原体的多样性。然而,这种复杂性给序列分析带来巨大挑战——传统比对工具如IgBLAST和Partis在面对高突变或插入缺失时,等位基因识别准确率可能骤降至70%以下,短小的D基因片段更成为"测序黑洞"。
巴伊兰大学纳米技术与先进材料研究所(Bar Ilan Institute of Nanotechnology and Advanced Materials)的Thomas Konstantinovsky团队开发了AlignAIR这一革命性工具。通过模拟生成1500万条含SHM特征的训练数据,构建多任务深度学习框架,该工具在《Nucleic Acids Research》发表的论文中展示三大突破:1)V基因识别准确率在突变率>10%时达94.58%,较传统方法提升4-9个百分点;2)首创动态阈值分配策略,使70%似然值对应70%真实准确率;3)潜在空间成功捕获5-mer突变模型(S5F)特征,R2达0.778。
关键技术包括:1)GenAIRR仿真系统生成含明确金标准的训练数据;2)卷积残差块并行处理V/D/J基因特征;3)哈达玛积掩码实现序列精准分割;4)基于4个突变模型(S5F/S5F Opposite/S5F 60/Uniform)的迁移学习验证。实验使用NVIDIA Titan RTX显卡完成15小时训练,处理速度达6百万序列/48分钟。
【核心发现】
等位基因分配性能:在真实IgG组库数据验证中,AlignAIR的V基因检索率(≈90%)与基因组金标准匹配度最高,错误分配率仅5%,而Partis达15%。对最难识别的D基因(长度<10bp),准确率仍保持56.78%,较传统方法提升17个百分点。
似然值可靠性:通过单核苷酸差异等位基因对测试显示,当训练采用S5F模型时,95%情况下AlignAIR似然差与S5F突变概率差方向一致(图4F),证明其成功内化了生物学突变规律。
多模型适应性:在Uniform→S5F 60跨模型测试中,V基因识别准确率仅下降2.3%,表明框架对突变模式变化具有鲁棒性(图4A-B)。潜在空间分析显示,S5F训练模型的序列漂移轨迹更符合生物学实际(图4C)。
该研究建立了深度学习在免疫组库分析中的新范式:1)仿真数据解决了实验数据缺乏金标准的痛点;2)动态阈值输出兼顾了免疫受体固有的模糊性;3)12M参数量模型平衡了效率与精度。未来扩展至TCR和氨基酸分析后,或将为肿瘤免疫治疗和疫苗设计提供更精准的受体特征解析工具。
生物通微信公众号
知名企业招聘