解码人类免疫细胞蛋白质表达序列密码的机器学习平台SONAR揭示调控新机制

【字体: 时间:2025年07月25日 来源:SCIENCE ADVANCES 11.7

编辑推荐:

  为解决免疫细胞蛋白质表达调控机制复杂且缺乏系统性解析的问题,研究人员开发了机器学习平台SONAR,通过整合7125种序列特征(SFs)成功预测63%的蛋白质丰度,揭示CDS区域的关键调控作用及细胞特异性SF使用模式,并设计增强型3'UTR显著提升T细胞受体(TCR)表达和抗肿瘤功能,为精准调控蛋白表达提供创新工具。

  

免疫细胞功能的精确调控依赖于复杂的蛋白质表达程序,这个涉及转录、转录后和翻译后多层次的调控网络,犹如细胞内的"摩尔斯电码",长期以来缺乏系统性破译方法。尤其在T细胞免疫治疗领域,如何精确控制治疗性蛋白(如肿瘤特异性TCR)的表达水平,成为制约疗效的关键瓶颈。传统方法主要依赖启动子强度调控,却忽视了占调控信息60%以上的转录后机制,这就像试图用单一音符演奏交响乐,难以实现精准调控。

荷兰癌症研究所(Netherlands Cancer Institute)的研究团队在《SCIENCE ADVANCES》发表的研究中,开发了名为SONAR的机器学习平台。该研究通过整合7125种序列特征(SFs),包括静态特征(如GC含量)和动态特征(如m6A修饰位点、RBP结合基序),构建XGBoost预测模型,在不需要启动子/增强子信息的情况下,成功预测63%的蛋白质丰度变异。研究使用来自9种细胞系和112种原代免疫细胞的公开蛋白质组数据,结合大规模并行报告基因检测(MPRA)和流式细胞验证实验,系统解析了蛋白质表达的"序列密码"。

研究首先发现编码区(CDS)的调控贡献超过传统认知的UTR区域,其中密码子使用、m7G修饰位点等特征最为关键。通过UMAP分析揭示不同免疫细胞亚群具有独特的SF使用模式,例如CD4+与CD8+ T细胞的调控特征相似度显著高于HeLa细胞。研究人员设计包含CTTTCTT等基序的合成3'UTR(syn3UTR),在报告基因实验中证实CT-rich基序可普遍增强翻译效率,而AG-rich基序则呈现抑制作用,这种效应在T细胞中尤为显著。

在动态调控方面,研究捕捉到T细胞激活过程中SF重要性重编程现象:静息T细胞中AAG密码子(编码赖氨酸)预先富集,为后续激活做准备;而AU-rich元件(AREs)在激活后解除翻译抑制。特别重要的是,研究证实序列背景决定基序功能——当将CXCL2 3'UTR中的ARE替换为CTTTCTT时,其增强效应被周围序列抵消,这解释了天然UTR调控的复杂性。

临床应用方面,研究团队将SONAR指导设计的syn3UTR应用于CDK4R24L特异性TCR,使TCR表达提升2.3倍,显著增强对黑色素瘤细胞的杀伤效率(Caspase-3/7活性增加58%)。这种仅通过3'UTR工程实现蛋白表达调控的策略,突破了传统依赖启动子改造的技术局限。

该研究建立了首个全面解析人类免疫细胞蛋白质表达调控规则的机器学习框架,其重要意义在于:技术上,SONAR平台可推广至其他哺乳动物细胞系统;理论上,揭示了CDS区域在翻译调控中的主导地位;应用上,为mRNA疫苗设计、细胞治疗等领域提供了不改变编码序列即可精确调控蛋白表达的新范式。特别是对TCR-T细胞治疗,该方法可在不引入外源调控元件的情况下增强抗肿瘤活性,具有重要转化价值。研究同时指出未来需结合RNA结构预测等新技术,以更全面解析调控元件的组合编码规律。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号