FusOn-pLM:基于动态余弦掩码策略的融合癌蛋白特异性语言模型助力肿瘤靶向治疗

【字体: 时间:2025年02月08日 来源:Nature Communications

编辑推荐:

  为解决融合癌蛋白(Fusion oncoproteins)结构无序性和成药性难题,Pranam Chatterjee团队开发了首个针对融合癌蛋白的特异性语言模型FusOn-pLM。该研究通过动态调整掩码率(15%-40%)的余弦调度策略,在44,414条融合癌蛋白序列上微调ESM-2模型,显著提升了融合蛋白特征提取能力。模型在 puncta形成、内在无序区(IDR)预测等任务中超越基线模型,并能零样本预测耐药突变,为融合驱动型癌症的靶向治疗提供了新工具。

  

在儿童癌症和多种恶性肿瘤中,由染色体易位产生的融合癌蛋白(如EWSR1::FLI1、PAX3::FOXO1等)是关键的驱动因子。这些嵌合蛋白因含有长无序区域和缺乏明确结合口袋,传统的小分子药物和结构预测工具(如AlphaFold2)对其束手无策。更棘手的是,融合癌蛋白的构象多变性和耐药突变频发,使得靶向治疗举步维艰。

为突破这一瓶颈,Pranam Chatterjee团队在《Nature Communications》发表了开创性研究。他们发现现有蛋白质语言模型(如ESM-2)虽能处理稳定蛋白,却未针对融合癌蛋白的特殊性优化。这些模型在训练时采用固定15%掩码率,难以捕捉融合蛋白中无序区域与功能域的动态关联。

研究团队首先构建了迄今最全面的融合癌蛋白数据库FusOn-DB,整合44,414条经实验验证的序列。通过AlphaFold2结构预测发现,融合癌蛋白平均45.9%残基呈无序状态(pLDDT<68.8),远高于其头尾野生型蛋白(约33%)。这种结构特性促使团队创新性地提出"余弦调度掩码策略":在训练过程中,掩码率从15%余弦振荡至40%,迫使模型动态适应不同复杂度的序列重建任务。

关键技术包括:1) 基于MMSeqs2的序列聚类划分训练集;2) 解冻ESM-2-650M模型最后8层进行微调;3) 采用XGBoost分类器评估puncta形成预测;4) 利用AlphaFold-pLDDT生成内在无序标签;5) 零样本突变预测分析耐药位点。

融合癌蛋白具有独特的序列和结构特征
通过BLAST比对发现,融合癌蛋白与SwissProt序列平均仅71%同源性,12,000余条序列同源性<60%。AlphaFold2预测显示,典型融合癌蛋白(如PAX3::FOXO1)的断点区域pLDDT评分普遍低于50,证实其高度无序特性。

余弦调度掩码优化序列重建
相比固定掩码率,动态调整策略使模型在测试集上的损失值从1.83降至1.28,伪困惑度(pPL)从6.24优化至3.61。这种"渐进式难度训练"使模型既能学习全局特征,又能捕捉局部突变模式。

嵌入表征揭示生物学特性
FusOn-pLM在puncta形成预测中AUROC达0.91,显著优于ProtT5-XL-U50(0.85)。更惊人的是,其无序预测模型FusOn-pLM-Diso在CAID2基准测试中位列前5(AUROC=0.825),与实验验证的Disorder-NOX数据集高度吻合(R2=0.84)。

零样本预测耐药突变
在EML4::ALK融合中,模型成功预测12/14个临床耐药突变(如Crizotinib耐药位点);对BCR::ABL1的伊马替尼耐药突变预测准确率达46%(13/28)。特别在ETV6::NTRK3案例中,模型不仅识别出激酶域耐药突变(G504A),还发现ETV6无序区域的高突变倾向。

这项研究标志着融合癌蛋白研究范式的转变。FusOn-pLM首次将动态掩码策略与融合特异性训练相结合,其生成的嵌入既能解析无序区域的物理化学特性,又能预测临床耐药突变。尽管存在长序列(>2000aa)处理限制,该模型已展现出指导降解剂设计(如PROTAC)和靶向治疗的潜力。未来整合PTM-Mamba等修饰预测模块,或将开启融合癌蛋白"不可成药"靶点的新纪元。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号