编辑推荐:
为解决现有 CDR3 序列生成方法难以产生可靠、多样新序列的问题,研究人员开展基于生成对抗网络(GANs)生成 T 细胞受体(TCR)CDR3 序列的研究,发现 LSTM 和 LeakyReLU 模型均有效,前者多样性与准确性更优,后者稳定性更佳,为 eTCR 疗法提供新工具。
在免疫治疗领域,精准设计 T 细胞受体(TCR)以增强其对抗肿瘤或病原体的能力是关键挑战。TCR 的互补决定区 3(CDR3)作为识别抗原的核心区域,其序列的多样性和准确性直接影响免疫疗法的效果。然而,传统的基于基序(motif)或马尔可夫模型的 CDR3 序列生成方法,难以捕捉真实 TCR 库的复杂多样性,导致生成序列的可靠性和新颖性不足,限制了工程化 T 细胞受体(eTCR)疗法的发展。因此,开发一种能够高效生成高度逼真且多样化 CDR3 序列的方法,成为提升 eTCR 疗法预测性和疗效的迫切需求。
来自瑞典卡罗林斯卡学院(Karolinska Institute)、波兰科学院遗传与动物生物技术研究所等机构的研究人员,在《Scientific Reports》上发表了一项突破性研究。他们首次将生成对抗网络(GANs)应用于 CDR3 序列的生成,通过比较基于长短期记忆网络(LSTM)和 LeakyReLU 激活函数的两种 GAN 架构,成功开发出能够生成生物学可靠 CDR3 序列的方法,为 TCR 库的虚拟生成和数据增强提供了新范式。
研究主要采用了以下关键技术方法:首先,从 VDJdb 数据库获取 116,063 条 CDR3α/β 序列,并从 UniProt 数据库补充 3,000 条非 TCR 序列作为对照,通过数值编码构建训练数据集;其次,设计两种 GAN 架构,LSTM 型 GAN 通过多层 LSTM 网络捕捉序列的长程依赖,LeakyReLU 型 GAN 则利用带泄露修正线性单元的神经网络稳定训练过程;然后,通过对抗训练优化生成器和判别器,以最小化判别器损失和 Kullback-Leibler(KL)散度为目标,使生成序列逼近真实 CDR3 的氨基酸频率分布和结构特征;最后,结合 t-SNE 聚类、频率分布分析、TCR3d BLAST 比对及分子对接等方法,验证生成序列的生物学相关性。
模型性能评估与对比
研究发现,LSTM 模型在判别器损失(0.07)、准确率(0.91)和 AUC(0.99)上表现更优,生成序列具有更高的多样性,真阳性和假阳性率均提升,但生成器损失较高(0.9)。相比之下,LeakyReLU 模型的生成器损失更低(0.65),Pearson 相关系数达 0.91,更稳定地模拟真实数据分布,且通过 t-SNE 分析显示其生成序列与真实 TCR 的重叠度更高。这表明 LSTM 适合生成多样化的治疗性序列,而 LeakyReLU 在疾病分类等需要稳定性的场景更具优势。
生物学可靠性验证
通过 TCR3d 数据库的 BLAST 分析,生成序列与已知 TCR 序列的比对得分显著高于非 TCR 序列,且在分子对接实验中,生成 CDR3 与 HLA-A*02:01 分子的结合亲和力(-634)接近真实值(-728),证实其具备抗原结合的生物学功能。此外,氨基酸频率分布对比显示,两种模型生成的序列均比传统 MEME 基序模型和马尔可夫模型更接近真实 CDR3,尤其是 LSTM 能生成更丰富的氨基酸类型,突破了基序模型的局限性。
与传统方法的对比优势
相较于依赖固定模板或短程依赖的传统生成方法,GANs 通过动态学习真实 TCR 库的复杂模式,能够生成兼具多样性和保真度的新序列。例如,MEME 模型因受限于已知基序,无法生成酪氨酸(Y)、脯氨酸(P)等未包含在基序中的氨基酸,而 GANs 则能突破这一限制,更全面地模拟自然 TCR 的多样性。这种优势在数据增强中尤为重要,可为机器学习模型提供更丰富的训练样本,提升 eTCR 疗法的设计效率。
研究结论表明,GANs 在 CDR3 序列生成中展现出显著潜力,LSTM 和 LeakyReLU 模型分别在多样性和稳定性上各具优势,为 eTCR 疗法的优化提供了关键工具。尽管当前模型在个别氨基酸的相关性上仍有提升空间,但通过结合 Wasserstein GAN、注意力机制等改进策略,有望进一步提高生成序列的生物学准确性。该研究不仅为 TCR 库的计算建模开辟了新方向,还为 RNA 序列设计、蛋白质折叠模拟等领域提供了方法论借鉴,推动生成对抗网络在计算生物学和免疫治疗中的广泛应用,加速个性化细胞疗法的发展进程。