HeavyBuilder:基于深度学习的抗体重链高通量结构预测与结构空间分析新方法
《Journal of Molecular Biology》:HeavyBuilder: Analysis of High-Throughput of Antibody Heavy Chain Repertoires in the Structural Space
【字体:
大
中
小
】
时间:2025年10月28日
来源:Journal of Molecular Biology 4.5
编辑推荐:
本研究针对抗体重链序列数据海量但结构解析困难的问题,开发了基于深度学习的快速精准预测工具HeavyBuilder。该工具在单GPU上3.13天即可预测百万结构,速度远超AlphaFold2和IgFold,精度相当。应用于7300万序列的结构分析,揭示了收敛结构(遗传不同但结构相似)和分化克隆(序列相似但结构多样)现象,并证明基于结构的相似性搜索比序列方法更有效,为大规模免疫库结构解析和抗体发现提供了新方案。
在免疫学领域,抗体作为适应性免疫系统的关键效应分子,其功能高度依赖于三维空间结构。近年来,高通量测序技术的飞速发展使得科学家能够以前所未有的规模解析抗体的基因序列。然而,一个尴尬的现实是:公共数据库中绝大多数免疫球蛋白序列数据(例如OAS数据库中超过24亿条)仅为重链序列,因为单独测序重链比同时测序轻重链配对序列更为经济便捷。尽管重链在抗体-抗原相互作用中通常扮演更为主导的角色,且其可变区(VH)由于V(D)J基因重排(涉及V、D、J三个基因片段)而具有更高的多样性,尤其是互补决定区3(CDRH3)的多样性最为显著,但如何在海量序列数据的基础上进行大规模的结构表征和分析,却一直是个难题。传统的实验方法如X射线晶体学解析高分辨率结构不仅耗时、费力且成本高昂。而即使像AlphaFold2这样的革命性蛋白质结构预测工具,虽然精度很高,但其依赖多重序列比对(MSA)且计算资源消耗巨大,难以应用于超大规模数据集的分析。其他一些抗体特异性预测工具,如IgFold,在速度和规模上仍存在局限。这种序列数据海量增长与结构解析能力严重不足之间的矛盾,极大地限制了我们从结构层面深入理解抗体库的多样性、功能及其在免疫应答中的作用机制。因此,开发一种能够快速、准确地对海量抗体重链序列进行结构预测的工具,并利用其对免疫库进行结构层面的高通量分析,成为了一个迫切的需求。
为了突破这一瓶颈,来自牛津大学统计学系牛津蛋白质信息学小组(Oxford Protein Informatics Group)的Joao D. Gervasio、Alexander Greenshields-Watson、Nele Quast、Brennan Abanades、Liza F. Felicori和Charlotte M. Deane等研究人员在《Journal of Molecular Biology》上发表了他们的最新研究成果。他们开发了一款名为HeavyBuilder的深度学习工具,专门用于快速、准确地预测抗体重链(单链)的三维结构。这项研究旨在填补现有技术空白,实现对大规模抗体重链序列库的高通量结构分析,从而揭示抗体序列与结构之间复杂的关系,并为抗体发现和免疫库分析开辟新的途径。
本研究主要采用了以下几项关键技术方法:1)基于ImmuneBuilder架构开发了HeavyBuilder深度学习模型,专门用于单条抗体重链可变区的结构预测;2)利用来自结构抗体数据库(SAbDab)等来源的抗体结构数据进行模型训练和测试;3)研究队列包含73个免疫库,其中41个来自研究团队的COVID-19患者队列(包括非感染者、轻症患者和住院患者),32个来自公共数据库OAS中收录的、在SARS-CoV-2疫情前采集的样本;4)使用SPACE2工具对预测得到的结构进行聚类分析;5)使用YClon工具进行基于序列的克隆分型(clonotyping);6)通过比对结构抗体数据库(SAbDab)、冠状病毒抗体数据库(CoVAb-Dab)和专利文献抗体数据库(PLAbDab)中的已知抗体结构,进行结构相似性搜索。
HeavyBuilder Benchmarking
研究人员对HeavyBuilder的性能进行了全面评估,并与IgFold和AlphaFold2进行了比较。结果显示,HeavyBuilder在预测精度上与其他工具相当,甚至在最具挑战性的CDRH3环区预测上略优于对比工具(HeavyBuilder refined版CDRH3 RMSD为3.37 ?,优于IgFold的4.04 ?和AlphaFold2的4.26 ?)。最关键的优势在于其惊人的速度:使用单个NVIDIA GTX 1080 GPU,HeavyBuilder预测100万个结构仅需3.13天,速度是IgFold的25倍以上,是AlphaFold2的10,000倍以上。即使仅使用CPU,其效率也显著高于其他方法。这表明HeavyBuilder成功地在预测速度和精度之间取得了最佳平衡,为大规模分析提供了可行性。
Predicted Heavy Chain Structures, Convergent Structures and Divergent Clones
利用HeavyBuilder的高效性,研究人员对来自73个免疫库的超过1119万条抗体重链序列进行了结构预测。通过对这些预测结构进行聚类(共识别出433,151个独特结构)并与基于序列的克隆分型结果(共识别出527,689个克隆)进行对比,研究揭示了抗体库中序列与结构之间有趣的关系。他们观察到了广泛存在的收敛结构(convergent structures),即来自不同基因克隆(遗传上不相关)的抗体却具有相似的三维结构。大约45%的结构簇可以由多个不同的克隆产生。同时,也发现了分化克隆(divergent clonotypes),即属于同一克隆(具有相似的基因背景)的抗体却可以采取多种不同的结构构象,大约30%的克隆会分化成多个不同的结构簇。这一发现证实了抗体功能(与结构密切相关)和基因进化历史之间并非简单的线性对应关系。
研究进一步深入探讨了克隆内部的结构多样性,提出了“多构象克隆”(multicanonical clones)的概念,即同一克隆内的抗体可以具有不同的CDRH1和CDRH2环的经典构象(canonical forms)。虽然这种现象并不普遍(平均约占克隆的0.14%),但其确实存在。分析发现,老年个体(尤其是因COVID-19住院的老年患者)中多构象克隆的频率显著高于非老年成人。这表明随着年龄增长或在某些免疫压力下,抗体克隆可能通过体细胞高频突变(somatic hypermutation)演化出更丰富的结构多样性,以适应不同的抗原挑战。然而,多构象克隆的频率与免疫库的克隆多样性之间并未发现明显的相关性。
Search for Structurally Similar Characterized Antibody
为了验证基于结构搜索在实际应用中的价值,研究人员将预测的抗体结构与已知功能的抗体数据库(SAbDab, CoVAb-Dab, PLAbDab)进行比对,寻找结构相似的抗体。一个关键测试是,在SARS-CoV-2疫情爆发前采集的样本(预存库)中,寻找与已知中和SARS-CoV-2的抗体结构相似的抗体。结果发现,与疫情后采集的样本(无论是非感染者、轻症还是住院患者)相比,预存库中能找到的相似中和抗体的频率显著更低。这一结果有力地证明了基于结构的相似性搜索能够更有效地发现可能具有特定功能的抗体,其效果优于单纯的序列比对方法(此前基于序列的搜索在同一数据集中发现的相关抗体频率不足1%,而结构搜索的 median 频率均高于1.2%)。
综上所述,本研究开发的HeavyBuilder工具成功解决了抗体重链海量序列数据难以进行高通量结构分析的瓶颈问题。其极高的预测速度和可接受的精度,使得对百万乃至千万级别抗体库进行结构层面的分析成为现实。通过对大规模数据的应用,研究揭示了抗体免疫库中广泛存在的结构收敛(不同序列相同结构)和克隆分化(相同序列背景不同结构)现象,并证实了基于结构的搜索在发现功能性抗体方面的优势。这些发现强调了在抗体库分析中引入结构维度的重要性,它能够提供仅靠序列信息无法获得的深刻见解。HeavyBuilder为充分利用现有的海量抗体重链序列数据、深入探索抗体多样性、理解免疫应答规律以及加速治疗性抗体的发现提供了强大的技术手段和新的研究范式。该工具已作为网络服务器和Python API公开,可供学术界和工业界研究人员广泛使用。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号