基于胚系基因的深度学习模型与基准数据集在抗体VH-VL配对预测中的创新研究
《mAbs》:Germline-aware deep learning models and benchmarks for predicting antibody VH–VL pairing
【字体:
大
中
小
】
时间:2025年10月19日
来源:mAbs 7.3
编辑推荐:
本文提出了一种结合胚系基因(germline)信息的深度学习框架,通过构建包含天然配对与三种合成负样本(随机配对、V基因错配、全V(D)J胚系错配)的基准数据集,系统评估了抗体重链(VH)与轻链(VL)配对预测的模型性能。研究显示,基于IgBERT的模型在区分天然与合成配对时准确率超过90%,其中全V(D)J胚系负采样策略显著提升了模型的泛化能力与生物学可解释性。该工作为抗体工程中的计算工具开发提供了可复现的基准基础。
抗体作为适应性免疫的关键效应分子,其多样性主要由可变重链(VH)与可变轻链(VL)的非共价配对决定,这种配对直接影响抗体的稳定性、抗原结合特异性及可开发性。然而,通过实验方法筛选功能性VH-VL组合既耗时又昂贵,因此开发能够高效预测兼容性重轻链配对的计算方法具有重要意义。本研究旨在填补该领域的空白,通过构建一个综合性的基准数据集并训练三种深度学习模型,系统评估不同负采样策略对模型性能的影响。
研究团队从Observed Antibody Space(OAS)数据库下载了1,954,079对VH/VL序列,经过胚系注释(重链使用V、D、J片段,轻链使用V、J片段)和预处理后,最终保留了1,357,155对高质量天然VH/VL配对。为了模拟真实的生物约束条件,研究采用了三种负采样策略生成合成负样本:随机配对、V基因错配和全V(D)J胚系错配。其中,随机配对通过简单打乱VH和VL序列实现;而胚系配对策略则基于Jayaram等人的假设,即胚系起源影响VH-VL配对,通过从未观察到的胚系组合中独立抽样VH和VL序列来构建负样本。研究还比较了两种胚系编码方案:仅使用V片段(V-germline)和使用完整的V、D、J片段(Full germline)。数据集按胚系起源划分为训练集、验证集和测试集,以确保模型在面对罕见或未见过的胚系配置时仍能保持判别能力。
通过t-SNE和UMAP算法对IgBERT生成的VH/VL配对嵌入进行降维可视化,发现随机配对的序列与天然配对在潜在空间中存在显著重叠,而基于胚系配对的负样本(尤其是V-only胚系配对)则呈现出明显的类别分离。这一结果表明,随机负采样策略可能难以捕捉有意义的配对模式,而胚系感知的负采样能更好地反映生物学的约束条件。
为了评估不同负采样策略在序列层面的差异性,研究计算了天然配对与三种合成负样本(随机、胚系、胚系-V)之间的序列内相似性和序列间相似性。结果表明,胚系-V数据集的序列内相似性最高,而胚系数据集的序列内相似性最低;同时,胚系-V数据集中的合成配对与天然配对的差异最大。这进一步证实了胚系信息在构建具有判别性的负样本中的重要性。
分析显示,在随机错配的训练集中,仅有0.3%的VDJ/VJ胚系组合是训练集中从未出现过的全新组合。这意味着绝大多数随机生成的负样本其胚系背景在训练集中已经存在,这解释了为何随机负样本与天然配对的嵌入难以区分。该发现强调了胚系身份在VH-VL配对兼容性中的决定性作用。
研究训练了三种基于IgBERT编码器和多层感知机(MLP)分类头的模型,分别对应三种负采样策略。评估在三种数据分割(随机、v-gene、germlines)上进行,使用准确率、F1分数和AUC-ROC等指标。结果显示,VDJ胚系模型在所有数据集和指标上均表现最佳,尤其在v-gene和germlines分割上准确率超过0.9,展现了强大的泛化能力。V胚系模型在v-gene分割上表现优异,但在其他分割上性能下降。随机模型整体表现最弱,但在受控分割上性能有所提升,提示了胚系感知数据构建的重要性。
通过分析天然配对抗体数据集中D基因的贡献,研究发现模型输出主要受V-J效应主导,但D基因在特定V-J背景下仍存在细微的、上下文依赖的贡献。模型能够捕捉D基因的特异性信号,同时对其分配噪声保持稳健。
研究建立了一个包含三种数据分割和参考性能(Topline和Bottomline)的基准框架,用于公平评估不同模型。在该框架下评估了p-IgGen、Humatch和ImmunoMatch等现有先进模型。结果显示,虽然这些模型在某些指标上表现良好,但均未达到Topline性能,表明未来模型仍有提升空间。该基准支持可复现、可解释的模型比较。
为了与现有工作(如PARA)进行间接比较,研究采用了基于序列相似性的排序任务进行评估。在该任务中,VDJ胚系模型的AUC-ROC得分接近PARA的参考值(0.82),表明其竞争力。随机模型和ImmunoMatch的较好表现提示PARA的负样本构造可能更接近随机错配而非生物学驱动的策略。
在720万序列的PairedAbNGS数据集上的性能
研究进一步在大型独立数据集PairedAbNGS上评估模型性能。所有模型均在OAS语料库上训练,并在去除与训练/验证/测试集重叠序列后的PairedAbNGS数据上进行测试。结果表明,胚系模型(V和VDJ)准确率最高,紧随其后的是Humatch,这再次验证了胚系信息作为配对兼容性关键决定因素的稳健性。
AlphaFold3 ipTM在VH/VL配对判别中的局限性
研究测试了AlphaFold3的界面预测模板建模得分(ipTM)在区分正确与错误VH/VL配对中的能力。对180个抗体序列的分析显示,天然配对、随机合成配对和胚系合成配对的平均ipTM值分别为0.89±0.02、0.90±0.01和0.89±0.03,且组间无显著差异。这表明ipTM无法有效区分VH/VL配对的正负样本,可能源于AlphaFold3训练数据(多为经过工程化或亲和力成熟的抗体)未能完全覆盖抗体空间,且胚系配对偏差涉及转录和基因组因素,无法仅通过界面质量指标捕捉。因此,需要专门针对抗体配对设计的模型。
研究初步探索了模型预测的VH-VL配对分数与抗体可开发性关键属性(如表达量和热稳定性)之间的相关性。使用Jain等人的数据集(包含137个抗体的Fab熔解温度和HEK表达滴度)进行分析,计算了不同模型(包括本研究模型及p-IgGen、Humatch、ImmunoMatch)配对分数与实验测量值之间的Pearson's r和Spearman's ρ。结果显示,相关性普遍较弱。Humatch与热稳定性的关联相对最强,而p-IgGen与表达量的趋势较明显。VDJ胚系模型显示出与热稳定性初步的统计学显著关联(ρ≈0.18)。尽管这些发现是初步的,且基于小样本量,但为VH-VL配对预测在早期可开发性筛选中的潜在应用提供了启示。
本研究通过引入一个结构化的、可复现的基准,解决了抗体VH-VL配对预测领域缺乏标准化评估框架的问题。研究证明,全V(D)J胚系错负采样能提供最具信息量的负样本集,从而实现稳健且生物学意义明确的分类。所贡献的IgBERT基线模型和基准数据集为未来方法的比较奠定了基础。此外,研究揭示了当前AI模型仅从VH-VL配对中捕捉可开发性信号的局限性,但胚系模型与热稳定性的初步关联指明了未来研究方向。该框架可轻松扩展至其他物种,促进准确、高效、生物学基础扎实的VH-VL配对预测模型的发展。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号