迭代攻击-防御框架提升T细胞受体-表位结合预测模型的鲁棒性研究

【字体: 时间:2025年07月16日 来源:Bioinformatics 4.4

编辑推荐:

  本研究针对T细胞受体(TCR)-表位结合预测模型(BAP)存在的假阳性问题,创新性地提出基于AI反馈强化学习(RLAIF)的迭代攻击-防御框架。通过生成生物不可信的对抗性TCR序列攻击模型漏洞,并将识别出的假阳性样本纳入训练集,显著提升了五种主流BAP模型(包括ATM-TCR、ERGO-LSTM等)的判别能力。该研究为免疫治疗和疫苗设计提供了更可靠的预测工具,其构建的对抗性负样本数据集(含9694对)可作为领域基准资源。

  

在免疫治疗和疫苗研发领域,准确预测T细胞受体(TCR)与表位(epitope)的结合能力至关重要。然而现有预测模型普遍存在假阳性问题——它们常将明显不符合生物学规律的序列(如重复氨基酸"EEEE"或过短序列"AY")误判为有效结合。这种缺陷源于训练数据中负样本(非结合对)的局限性:当前主要采用表位-TCR随机配对或健康人TCR库采样等策略,既不能保证真实的非结合状态,也缺乏对模型特定漏洞的针对性。

亚利桑那州立大学计算与增强智能学院(School of Computing and Augmented Intelligence, Arizona State University)的研究团队在《Bioinformatics》发表创新研究,提出迭代攻击-防御框架。该工作首先通过强化学习从AI反馈(RLAIF)生成对抗性TCR序列攻击预测模型,随后用识别出的假阳性样本增强训练数据。实验证明该方法使五种主流BAP模型对假阳性的识别率提升最高达88.36个百分点(如catELMo MLP模型从11.67%提升至99.03%),同时保持对真实结合对的判别性能。

关键技术包括:1) RLAIF框架指导TCR生成模型产生对抗序列;2) 通过TCRMatch(k-mer相似性分析)和GPT-LL(序列似然评估)双验证系统识别假阳性;3) 多轮迭代优化中动态调整正负样本比例;4) 采用t-SNE和SeqLogo可视化分析序列特征演化。

5.1 BAP攻击是普遍性问题

所有测试模型(含CNN、LSTM、自注意力架构)均易被对抗序列欺骗,典型如netTCR-2.0模型对10.10%的荒谬序列给出高结合评分。通过TCRdist聚类发现,对抗序列既包含明显非生物模式(如连续重复),也存在保留CDR3区保守基序的"高仿"序列。

5.2 微调显著提升鲁棒性

经过3轮攻击-防御迭代后,假阳性数量趋于零。关键改进体现在:ERGO-LSTM模型对对抗样本的识别准确率从30.88%提升至91.66%,而对其原始测试集(阳性/阴性健康/阴性混洗)的性能波动小于6%。

5.3 对抗性负样本集的普适价值

整合9694对抗负样本构建的组合数据集使各模型获益:PiTE模型在额外使用启发式过滤后,仍将假阳性识别率从78.61%进一步提升至99.07%。t-SNE分析显示,迭代后期的对抗序列更接近真实TCR分布,揭示出模型更深层的决策边界缺陷。

该研究突破性地将对抗学习引入免疫信息学领域,其价值体现在三方面:首先,公开的对抗负样本集(含迭代各阶段序列)为领域提供了标准化压力测试工具;其次,框架揭示的模型漏洞(如对特定基序过度敏感)指导了更合理的架构设计;最后,该方法可扩展至抗体-抗原预测等负样本稀缺场景。研究团队特别指出,当BAP模型作为TCR生成任务的奖励函数时,该框架能有效预防强化学习中的"奖励破解"现象——即生成器通过制造非功能序列骗取高分的作弊行为。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号