基于强化学习的生成语言模型codonGPT实现可扩展mRNA设计
《Nucleic Acids Research》:codonGPT: reinforcement learning on a generative language model enables scalable mRNA design
【字体:
大
中
小
】
时间:2025年12月20日
来源:Nucleic Acids Research 13.1
编辑推荐:
本研究针对mRNA设计缺乏生成式语言模型的瓶颈,开发了首个专门针对编码mRNA序列的生成语言模型codonGPT。研究人员通过引入推理时同义掩码技术,将mRNA设计转化为约束性语言建模任务,并创新性地将强化学习应用于模型优化,实现了在保持蛋白质序列不变的前提下,对HLA-A和ACTB等基因的翻译效率、稳定性和GC含量等多目标协同优化。该框架为mRNA治疗、合成生物学和蛋白质工程提供了可定制、可扩展的设计平台。
在生物技术领域,信使RNA(mRNA)作为连接基因信息与蛋白质功能的关键分子,在疫苗开发、蛋白质生产和基因治疗中展现出巨大潜力。然而,设计理想的mRNA序列却面临着一个根本性挑战:由于遗传密码的简并性,同一个氨基酸可由多个不同的密码子编码,这意味着一个典型的300个氨基酸的蛋白质可能存在10^100种不同的同义密码子组合。这种天文数字般的可能性空间使得mRNA序列选择成为一个复杂的组合优化问题。
传统的mRNA设计方法主要依赖商业化的密码子优化工具,如Thermo Fisher的GeneOptimizer?和Genscript的GenSmart?。这些工具虽然能够快速提供设计方案,但其算法不透明、目标权重不可调,且通常只返回少数几个设计序列,难以满足个性化医疗和精密合成生物学对设计灵活性和透明度的要求。更重要的是,现有的生物序列生成模型主要集中在蛋白质、非编码RNA和DNA序列上,缺乏专门针对编码mRNA序列的生成式基础模型。
为了突破这些限制,Nanil Therapeutics公司的Binita Rajbanshi和Anuj Guruacharya在《Nucleic Acids Research》上发表了创新性研究,开发了codonGPT——首个专门针对蛋白质编码mRNA序列的生成语言模型。该研究不仅构建了基于GPT-2架构的密码子级语言模型,还创新性地将强化学习(RL)应用于生物序列优化,为mRNA设计提供了全新的解决方案。
研究人员采用了几项关键技术方法:首先,从Ensembl Release 64获取338,417条模型生物的mRNA编码序列(CDS),使用包含64个标准密码子和3个特殊标记的自定义标记器进行训练;其次,在推理阶段引入同义对数掩码技术,确保生成的密码子序列始终与目标氨基酸序列保持一致;最后,针对特定蛋白质(HLA-A和ACTB)实施强化学习优化,采用包含CAI(密码子适应指数)、GC含量、ΔG(自由能)、密码子熵和重复序列惩罚的多目标奖励函数。
Biological structure emerges from unsupervised codon-level training of codonGPT
研究发现,即使在没有明确生物学监督的情况下进行训练,codonGPT仍然能够学习到有生物学意义的密码子表示。通过t-SNE(t-分布随机邻域嵌入)和PCA(主成分分析)对64个密码子嵌入向量的分析显示,编码相同氨基酸的密码子在嵌入空间中形成明显的聚类模式。同义密码子之间的平均余弦相似度(0.30±0.12)显著高于非同义密码子对(-0.03±0.10),表明模型成功捕捉了密码子与氨基酸之间的语义关系。更有趣的是,密码子嵌入空间还呈现出与GC含量和密码子相对适应性(w(c))相关的梯度分布,证明模型在无监督训练中自发学习了组成特性和表达偏好等生物学特征。
Inference-time synonymous logit masking of codonGPT ensures biologically faithful codon generation
为确保生成的密码子序列保持正确的蛋白质翻译,研究团队开发了推理时同义对数掩码技术。在对100个持家基因(HKG)的测试中,该方法实现了100%的蛋白质序列保真度。与天然序列相比,模型生成的序列在密码子水平上显示出中等程度的差异(归一化汉明距离中位数为0.608),但密码子使用相似度(余弦相似度中位数为0.893)高度接近天然序列。特别值得注意的是,模型生成的序列保持了天然序列中GC含量与CAI之间的正相关关系(Pearson's r=0.63),而随机同义替换的对照序列则破坏了这种生物学相关模式。
Emergence of codon constraints across functionally distinct genes
针对HLA-A(人类白细胞抗原A)和ACTB(β-肌动蛋白)这两个功能迥异的基因进行深入分析发现,codonGPT能够捕捉基因特异性的密码子使用约束。ACTB显示出更高的平均位置熵(1.55),反映了其在密码子使用上的灵活性,而HLA-A的位置熵较低(1.29),表明其受到更强的进化约束。模型生成的100个候选序列在CAI(0.4-0.55)和GC含量(0.44-0.62)等关键指标上都保持在生物学合理范围内,证明了模型在保持生物学合理性的同时引入有意义序列多样性的能力。
Protein-specific reinforcement fine-tuning of codonGPT optimizes a multi-objective reward function
研究最具创新性的部分是将强化学习应用于codonGPT的蛋白质特异性优化。针对HLA-A和ACTB两个蛋白质,研究人员设计了包含CAI(权重2.0)、GC含量惩罚(权重0.2)、ΔG得分(权重0.05)、密码子熵(权重0.01)和重复惩罚(权重0.01)的多目标奖励函数。强化学习训练过程显示出稳定的收敛特性,经过优化的序列在各项生物学指标上均显著提升。
与商业优化工具和现有模型(如CodonTransformer)相比,codonGPT-RL生成的序列在CAI(HLA-A:~0.716;ACTB:~0.866)、ΔG得分(HLA-A:~0.758;ACTB:~0.668)等关键指标上表现更优,同时保持了合理的密码子多样性。通过主成分分析对六维奖励向量的可视化显示,强化学习优化后的序列在奖励空间中形成紧密的高奖励集群,与基础模型和其他优化方法产生的序列明显分离。
这项研究的成功实施标志着生物序列设计方法学的重大进步。codonGPT作为首个密码子级的生成语言模型,不仅填补了编码mRNA生成模型的空白,更通过强化学习框架实现了多目标、可定制的序列优化。与传统的黑箱式商业工具相比,该方法的透明性和可调性为精密医学应用提供了重要优势。推理时同义掩码技术的引入确保了生物学保真度,而蛋白质特异性优化策略则适应了不同蛋白质特有的序列约束和优化需求。
该技术的潜在应用范围广泛,包括mRNA疫苗设计、治疗性蛋白质生产、合成生物学元件优化以及跨宿主表达调控等。特别是对于GFP(绿色荧光蛋白)、β-内酰胺酶和促红细胞生成素等常用报告基因的优化,codonGPT-RL框架提供了前所未有的灵活性和控制精度。未来,该框架可进一步扩展至免疫原性优化、核糖体暂停位点控制和组织特异性翻译等更复杂的生物学约束条件,为生物技术领域提供更加全面和强大的设计工具。
这项研究的重要意义在于它将人工智能的最新进展与生物学序列设计的实际需求紧密结合,建立了一个可扩展、模块化且生物学基础扎实的框架,为后基因组时代的序列设计奠定了新的范式。通过将强化学习与生成语言模型相结合,研究人员成功地将生物学的复杂性和多样性转化为可计算的优化目标,为解决长期存在的密码子优化挑战提供了创新性解决方案。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号