基于人工智能与序列比对技术的IL-2诱导肽预测工具开发及其在癌症免疫治疗中的应用

【字体: 时间:2025年07月17日 来源:Scientific Reports 3.8

编辑推荐:

  本研究针对IL-2(白细胞介素-2)免疫疗法存在的毒性问题,开发了首个预测IL-2诱导肽的智能算法IL2pred。研究人员通过整合机器学习(ML)、深度学习(DL)和大语言模型(LLM),构建了AUC达0.84的集成模型,并发现富含Ala/Leu的肽段具有显著诱导活性。该成果为设计低毒性IL-2突变体提供了重要工具,相关技术已部署于开源网络服务器(https://webs.iiitd.edu.in/raghava/il2pred/)。

  

在癌症治疗领域,IL-2免疫疗法如同双刃剑——虽然能激活杀伤性T细胞和NK细胞对抗肿瘤,但高剂量引发的血管渗漏综合征等毒性反应让 clinicians 进退维谷。传统解决方案需要耗费数月时间通过实验筛选突变肽,就像大海捞针。更棘手的是,现有方法无法预测哪些抗原片段能天然诱导IL-2分泌,这使得个性化疫苗设计步履维艰。

印度信息技术研究所(Indraprastha Institute of Information Technology)的Naman Kumar Mehta团队在《Scientific Reports》发表的研究带来了破局之道。他们从免疫表位数据库(IEDB)中挖掘6,574条MHC结合肽,首次发现IL-2诱导肽存在"疏水密码"——Two-sample logo分析显示L/F/Y等疏水氨基酸在特定位置富集,而T/D/S等亲水氨基酸被排斥(见图3)。更引人注目的是,MERCI算法捕获到10个独家基序如"ALEGSL",这些基序在非诱导肽中完全缺席(表1)。

研究团队采用多模态技术路线:1)通过Pfeature工具计算10,000维肽段特征(如二肽组成DPC);2)开发Extra Tree集成模型,结合肽段长度特征使AUC提升至0.82;3)创新性地将ProtBERT语言模型嵌入特征工程;4)构建融合MERCI基序评分的集成模型,最终实现0.84的AUC和0.51的MCC。针对临床场景差异,团队还建立了三个数据集:Main Dataset(纯MHC结合肽)、Alternate Dataset 1(MHC结合肽vs非结合肽)和Alternate Dataset 2(混合型),后者验证显示模型在未知MHC状态时仍保持0.80 AUC。

长度分布与组成分析

长度15的肽段在诱导肽中占比最高(图1),而平均氨基酸组成分析揭示诱导肽显著富含丙氨酸(Ala)和亮氨酸(Leu)(p<0.05),这与已知能诱导癌细胞凋亡的肽段特征吻合(图2)。

AI模型性能比较

在Main Dataset上,传统机器学习(ML)的Extra Tree模型以DPC+长度特征表现最佳(AUC 0.82),远超深度学习CNN(AUC 0.71)和微调后的ProtBERT(AUC 0.69)。特征选择实验证实,200个SHAP筛选的特征可保持模型性能(表6)。

实际应用价值

网络服务器IL2pred提供四大功能模块:1)预测模块可识别FASTA格式肽段的诱导潜力;2)设计模块能生成并排名单点突变体,如将毒性肽段突变为"疏水密码"肽;3)蛋白质扫描模块可定位蛋白序列中的IL-2活性区域;4)基序扫描模块可鉴定功能motif。与现有工具IL4pred/IL6pred相比(表9),IL2pred的灵敏度(0.77)提升5倍以上。

这项研究的突破性在于:首次建立IL-2诱导肽的"序列-功能"预测框架,揭示了疏水氨基酸网络的关键作用。提供的开源工具不仅能加速superkine(超激肽)设计,其"DPC+基序"的混合建模策略更为其他细胞因子预测提供了范式。未来通过整合单细胞测序数据,有望进一步优化预测精度,推动精准免疫治疗发展。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号