《Cell Genomics》:Semantic design: Programming functional genes from genomic context
编辑推荐:
本综述聚焦语义设计(Semantic design)这一前沿范式,其核心在于利用Evo基因组语言模型,仅根据基因组背景信息即可生成具有全新功能基因。文章系统阐述了该技术如何突破传统依赖结构先验或序列同源性的限制,在抗CRISPR蛋白、毒素-抗毒素系统等设计中展现出卓越成功率和创新性,为合成生物学提供了超越自然进化限制的强大工具。
语义设计:从基因组背景编程功能基因
生成式基因组模型在创建复杂生物系统方面具有巨大潜力,但设计精确的功能序列仍然充满挑战。由Merchant等人在《自然》杂志上提出的语义设计方法,标志着这一领域的重大突破。该方法利用Evo基因组语言模型,仅凭基因组背景信息即可生成全新的功能基因。更重要的是,SynGenome数据库收录了通过语义设计产生的超过1200亿个序列,涵盖了多种多样的功能。
背景与核心创新
基于结构的AI模型,如AlphaFold和RFdiffusion,已经彻底改变了我们对蛋白质结构与功能关系的理解。然而,这些方法仍然依赖于多序列比对中的共同进化数据,或者试图通过去噪扩散模型在结构空间中进行优化。Merchant等人则开创了一种开创性的方法:通过在原核生物基因组上训练Evo模型,输入基因组背景作为提示,使模型能够“自动完成”并生成功能性CRISPR抑制剂和毒素-抗毒素系统。
其根本性的理论创新在于系统性地将语言学的“分布假说”应用于基因组分析。类似于我们通过上下文理解单词的含义,一个基因的功能也可以通过其基因组环境来定义。传统的微生物遗传学广泛使用“关联推定”原则来发现新基因——功能相关的基因通常在基因组上物理相邻。然而,这种方法本质上是在利用现有的自然多样性。语义设计将这一原则提升到了生成层面,使模型能够基于其对基因组背景的理解,创造出自然界尚未观察到的新功能序列。
Evo模型的技术实力
Evo 1.5模型采用了拥有70亿参数的基因组语言模型,能够处理长上下文。该模型在OpenGenome数据集上进行了预训练,该数据集包含约8万个原核生物基因组以及超过200万个噬菌体和质粒序列,总计约3000亿个核苷酸。与其前身相比,其预训练标记规模从3150亿扩展到4700亿,Evo 1.5表现出显著的性能提升。
在基因补全任务中,Evo 1.5展现了卓越的能力。当仅提供30%的输入序列时,其对rpoS基因的氨基酸序列恢复率达到了85%。这种性能优势在对三个保守原核基因(rpoS、gyrA和ftsZ)的评估中均得到一致体现。重要的是,该模型展示了对多基因组织原则的深刻理解;无论提供上游、下游或互补链信息作为提示,生成的E. coli trp操纵子基因与天然对应物显示出近乎完美的结构预测重叠,同时保持高序列同一性。
位置熵分析有力地反驳了模型仅仅是记忆数据的说法。对天然和生成的modB序列的比较分析显示,在氨基酸水平上高/低熵区域分布一致,表明模型精确保留了关键功能位点,同时在核苷酸水平保持高熵。这证明了模型掌握了密码子简并性,能够在DNA层面产生大量的序列多样性,同时严格遵守蛋白质的功能约束,从而精确模拟了自然进化的一个核心特征。进一步分析证实了这种“模拟进化”的质量:当引入氨基酸改变时,模型优先选择在BLOSUM62矩阵中得分高的保守替换,展示了对自然进化约束的深刻模仿,确保了结构稳定性和功能性,同时兼具显著的新颖性。
在复杂系统构建中的验证
Merchant等人对语义设计方法构建复杂生物系统进行了广泛验证,涵盖了两种不同的相互作用模式:蛋白质-蛋白质(II型毒素-抗毒素系统)和蛋白质-RNA(III型系统)。他们建立了一个简化的“接力”设计流程:首先基于基因组背景生成毒素,随后鉴定出具有生长抑制功能的毒素,然后利用这些毒素作为提示,指导模型生成相应的抗毒素。
实验结果证实了该流程的有效性——II型抗毒素EvoAT1-4成功恢复了被EvoRelE1阻碍的细菌生长,而III型RNA抗毒素EvoAT6有效中和了ToxN的毒性。这强调了模型不仅理解单个基因的功能,还理解基因对之间的“毒素中和”动力学。值得注意的是,设计的抗毒素表现出显著的兼容性。虽然毒素-抗毒素系统具有高度特异性,但研究发现EvoAT2和EvoAT4不仅能够中和其指定的目标EvoRelE1,还能有效抑制多种天然毒素(RelE、MazF和YoeB)。这表明Evo可能捕捉到了抗毒素中和的潜在“底层通用机制”,使得设计的防御元件具有比自然进化过程产生的更广泛的特异性,这对合成生物学的进步具有重要影响。
超越序列相似性的功能实现
语义设计的力量在于其能够超越序列相似性的限制。尽管EvoAT1-4与天然抗毒素的序列同一性较低(21%-27%),但AlphaFold 3对EvoAT1-4与其同源毒素的结构预测也显示出高置信度的复合物形成。同样,工程化毒素EvoRelE1尽管存在显著的序列变异,但仍与其最佳BLAST匹配保持高度的结构一致性。这表明功能结果主要由“背景”决定——在适当的背景框架下,模型重建了正确的功能架构。
在抗CRISPR蛋白设计中的优势
语义设计的优势在抗CRISPR蛋白设计中尤为明显。由于Acr蛋白的快速进化和低序列保守性,传统的预测方法面临巨大挑战。Merchant等人利用Acr基因的基因组背景(经常与aca基因共现)作为提示,促使Evo生成新的Acr蛋白。这一策略被证明非常有效——与随机提示相比,Acr背景提示生成的序列在PaCRISPR分类器中得分显著更高,并且产生的候选库表现出高多样性,序列间相似性极低。
功能验证证实了AI生成序列的生物活性。在质粒保护实验中,Acrs抑制了Cas9介导的抗性基因切割,使细菌在抗生素条件下存活;生成的EvoAcr1-5提供了显著的保护,其中EvoAcr3-5的活性与AcrIIA2相当。通过噬菌体感染实验进行的正交验证显示噬菌斑形成,表明EvoAcrs有效抑制了CRISPR-Cas9系统,使噬菌体成功感染。
EvoAcr的新颖性令人惊叹。EvoAcr4-5与已知Acrs有中等相似性;EvoAcr3类似于功能被重定向的Sigma-70家族蛋白;而EvoAcr1和EvoAcr2在BLAST nr或OpenGenome中没有显著的序列同源物,AlphaFold 3也无法提供高置信度的结构预测。这表明Evo在序列空间中设计了“功能暗物质”——表现出强大的生物功能,但其折叠和序列特征完全超出了当前生物信息学工具的范围。
SynGenome数据库:一个并行的基因组宇宙
为了增强研究界的能力,Merchant等人开发了SynGenome数据库,其中包含从170万个天然基因提示生成的1200亿个碱基对的合成序列。统计分析表明,这些“合成基因”紧密模仿了天然生物物理特性——它们的密码子使用偏好与天然序列一致,预测的开放阅读框长度分布与天然模式吻合,Pfam蛋白家族的丰度分布反映了自然界中特征性的长尾分布。这证明SynGenome不是随机组装,而是包含了统计和生物学上合理的“平行基因组”。
对提示共现的检查表明,模型重现了天然的基因组共定位模式。更重要的是,这些关联使得预测未知功能域成为可能。因此,SynGenome不仅作为一个序列库,更作为一个用于挖掘基因功能关联的知识图谱。其价值超越了模仿,达到了超越。Leiden聚类分析显示,虽然大多数生成的序列与天然序列混合,但约19%形成了独特的“仅生成”簇,表明模型探索的序列空间是自然进化未曾触及的。该数据库还包括各种自然界中不存在的“嵌合蛋白”,展示了不同功能域的创新融合,为合成生物学应用提供了一个预组装的潜在增强组件库。
互补现有方法的全新范式
语义设计代表了一种全新的蛋白质设计范式,对现有方法形成了补充。首先,与需要任务特异性微调的技术相比,语义设计无需额外训练即可运行,从而避免了对已表征样本的偏向。其次,与通过自然语言描述定义功能相比,语义设计直接访问嵌入基因组序列中的功能多样性,利用了尚未被表征的生物学过程。实验证明的成功率在17%-50%之间(基于测试有限数量的变体),超过了许多蛋白质设计方法的成功率。这一较高的成功率尤其值得注意,因为许多设计的蛋白质与功能相似的蛋白质,或在某些情况下与任何已知蛋白质,都表现出极低的序列同源性。
挑战与未来展望
尽管如此,语义设计仍面临挑战。自回归生成可能产生重复序列或产生看似真实但无功能的设计。此外,目前它仅限于自然界中存在的、尤其是原核生物内的上下文关系所编码的功能。值得注意的是,只有一小部分原核生物功能多样性已被发现,而对这种多样性的探索已经产生了强大的技术,如PCR、光遗传学和基因组编辑。
总结
总之,通过解码基因组的分布语义,Evo 1.5证明了生物功能可以从基因组背景中有效生成,从而规避了对结构先验或序列同源性的依赖。那些没有可识别同源物且AlphaFold预测置信度低的活性暗物质蛋白的存在,为生成模型探索序列空间内的功能“岛屿”提供了令人信服的证据。这项工作将语义设计确立为一种变革性范式,为合成生物学的新进展铺平了道路,使得发现和设计超越自然进化过程限制的复杂多组分系统成为可能。