解构Komagataella phaffii型菌株CBS 2612基因组:为生物技术应用与基础研究提供新见解

《Yeast》:Decoding the Genome of the Komagataella phaffii Type Strain CBS 2612

【字体: 时间:2025年10月23日 来源:Yeast 2.6

编辑推荐:

  本刊推荐:本研究首次完成并注释了Komagataella phaffii(原Pichia pastoris)型菌株CBS 2612(NRRL Y-7556T)的高质量全基因组序列(9.39 Mb),揭示其拥有5412个预测基因(5389个已注释),包括144个tRNA基因(补充了色氨酸、酪氨酸和丝氨酸tRNA)和34个rRNA基因。研究发现与工业常用菌株CBS 7435仅存在4个SNP差异,并鉴定出34个长链非编码RNA(lncRNA)候选物,这些lncRNA可能影响端粒调控和絮凝蛋白基因。该基因组为深入理解其遗传基础、优化蛋白表达系统及推进过氧化物酶体研究提供了关键资源。

  
1 引言
甲基营养型酵母Komagataella phaffii(旧称Pichia pastoris)是生物制药和工业酶生产中的重要表达系统。过去被归类为Pichia pastoris的菌株后来被重新分类为独立的物种K. phaffii和Komagataella pastoris。目前,Komagataella属包含七个甲基营养物种,均从树木中分离得到。在重组蛋白生产背景下,K. phaffii和K. pastoris仍常以其旧名P. pastoris称呼。
K. phaffii以甲醇作为碳源和能源的能力使其成为有吸引力的重组蛋白生产宿主系统。甲醇利用基因(如AOX1)的强诱导型启动子通常用于高水平表达重组蛋白。此外,K. phaffii能有效地将重组蛋白分泌到培养上清液中,增加了其作为生产宿主的价值。关于K. phaffii遗传学和细胞生物学的积累知识促进了代谢物和蛋白质生产的成功细胞和代谢工程。此外,通过甲醇有效诱导过氧化物酶体形成的能力使K. phaffii成为过氧化物酶体研究的可靠微生物模型系统。
对K. phaffii进行深入研究的前提是获得高质量的基因组信息。2009年,GS115菌株(源自野生型菌株NRRL Y-11430 = CBS 7435的组氨酸营养缺陷型突变体)的序列被公布,随后发布了野生型CBS 7435的序列。后来,通过使用长读长测序、转录组学和蛋白质组学数据,这些菌株的序列和基因组注释得到了进一步改进。
尽管CBS 7435是工业中更常用的菌株,但CBS 2612是物种K. phaffii的描述型菌株(型菌株NRRL Y-7556T = CBS 2612T),因为它是Herman Phaff于1954年分离的原始菌株。根据定义,型菌株是首次描述物种时使用的菌株。与其他物种菌株一样,CBS 2612从树木(特别是美国加利福尼亚州的黑橡树Quercus kelloggii的渗出液)中分离得到,并用于生产重组蛋白以及研究K. phaffii的遗传学和生理学。此外,CBS 2612的甲醇利用途径突变体和稳定交配型菌株是可用的。
CBS 2612的基因组序列被纳入比较研究中,并且短读长测序的原始数据和支架已存入NCBI。然而,直到现在,在公共数据库(如NCBI)中尚未提供完整的组装基因组序列和注释。
在他们的比较研究中,Braun-Galleani等人描述了CBS 2612和CBS 7435之间总共4个SNP,但没有分析可能受影响的蛋白质(GS115和CBS 7435之间有69个SNP)。Brady等人仅报告了CBS 2612和CBS 7435之间的一个SNP,该SNP影响转录因子Rsf2的长度(GS115和CBS 7435之间有74个SNP)。最近的发现表明,NRRL Y-11430/CBS 7435源自原始型菌株。为了使K. phaffii型菌株的基因组信息可访问,本文展示了CBS 2612(= NRRL Y-7556)的全基因组序列。我们通过长读长测序技术PacBio获得了K. phaffii CBS 2612的原始基因组序列。我们进行了功能注释,包括预测推定的长链非编码RNA,并与已发布的K. phaffii CBS 7435菌株基因组序列进行了详细比较。这份注释良好的K. phaffii型菌株CBS 2612基因组序列有助于其用于基础研究和生产菌株的开发。
2 材料与方法
2.1 基因组测序
K. phaffii CBS2612(来自荷兰Westerdijk真菌生物多样性研究所的CBS酵母收藏馆)细胞在标准YP培养基(10 g/L酵母提取物,20 g/L大豆蛋白胨)中生长,其中含有2%葡萄糖作为碳源。液体培养物在25°C的摇瓶中培养过夜。使用Genomic-tip 100/G试剂盒(Qiagen)提取基因组DNA。提取的DNA在美国Pacific Biosciences(PacBio)的单分子实时(SMRT)平台上进行测序,产生180,687条原始读长和2,295,631,368个碱基,平均读长为12,705(N50读长为17,495)。
2.2 基因组组装
使用原生PacBio分层基因组组装过程HGAP3和Celera组装器v8.1进行组装,随后由测序中心进行unitig一致性调用。使用PacBio的Quiver(SMRT Analysis 1.4)进行长读长抛光。使用BLASR v1进行映射,得到147,523条映射读长。组装过程由苏黎世功能基因组学中心(FGCZ)产生29个contig,后来通过与CBS 7435和GS115比较,浓缩成四个染色体和线粒体。使用bioawk确定染色体和contig长度。
2.3 用于比较和注释的菌株和基因组序列
使用了CBS 7435组装a(ASMa)、CBS 7435组装b(ASMb)、GS115 ASMa、GS115 ASMb以及K. pastoris DSMZ70382的型菌株的基因组序列进行
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号