ez-CAZy数据库:基于HMM模型的糖苷水解酶功能注释新工具及其在碳水化合物活性酶研究中的应用

【字体: 时间:2025年07月05日 来源:Scientific Reports 3.8

编辑推荐:

  本研究针对CAZy(碳水化合物活性酶)数据库中糖苷水解酶(GH)功能注释不精确的问题,开发了ez-CAZy参考数据库。通过重新注释7,000余个生化表征的GH序列,结合HMM(隐马尔可夫模型)分析和多域架构研究,建立了序列-功能关联体系。验证显示该工具能准确预测新GH序列的酶活性(如GH5纤维素酶和GH43木聚糖酶),为微生物组研究和工业酶开发提供了重要资源。成果发表于《Scientific Reports》。

  

在自然界和工业应用中,糖苷水解酶(Glycoside Hydrolases, GH)就像"分子剪刀",专门切割碳水化合物中的糖苷键。这些酶对生态系统物质循环、人类肠道微生物功能以及生物燃料生产都至关重要。然而科学家们面临一个棘手难题:虽然CAZy(碳水化合物活性酶)数据库收录了大量GH序列,但由于缺乏精确的序列功能定义,研究者不得不采用"多数原则"来推测新发现酶的功能——例如将GH5家族默认为纤维素酶,而实际上该家族包含30多种不同活性。这种粗放的注释方式严重制约了酶资源的精准开发和利用。

针对这一挑战,加州州立大学长滩分校的Daniel S. Erdody团队开发了革命性的ez-CAZy数据库。研究人员系统分析了7,198个已表征的GH蛋白,使用Pfam的隐马尔可夫模型(HMM)重新注释序列,识别出14,841个蛋白结构域。通过构建催化结构域进化树和ANOSIM统计分析,发现酶活性和多域架构在GH家族中呈现显著聚类分布。例如GH9家族中,86%的纤维素酶(EC.3.2.1.4)都含有特定的CelD_N结构域(PF02927)。基于这一规律,用513个新表征GH序列验证时,88.2%的GH5和85.7%的GH43活性预测准确。该成果为GH功能注释提供了全新解决方案。

研究采用三大关键技术:1)从CAZy数据库获取7,198个GH序列并通过eFETCH下载完整蛋白序列;2)使用HMMscan和Pfam-A V.37进行结构域注释,识别出445种不同结构域;3)通过Clustal Omega序列比对和Phylip构建进化树,结合R Vegan包的ANOSIM分析(9,999次置换)验证功能聚类特征。这些方法系统揭示了序列-功能-结构域的关联规律。

【Sequences retrieval and reannotation】部分显示,重新注释发现3,169个单域GH和4,029个多域GH,最复杂的GH70蛋白(CDX66820.1)包含19个结构域。值得注意的是,新定义的GH147家族成员被HMM识别为GH5(PF00150),揭示家族间的进化联系。

【GH multi-domain architecture vs. enzymatic activity】通过ANOSIM分析证实,在多数GH家族中,酶活性(RANOSIMEC>0)和结构域架构(RANOSIMArchi>0)均呈现显著聚类(p<0.01)。如图1所示,GH3、GH9等多域蛋白主导的家族表现出更丰富的活性多样性,而GH22等单域家族则保持单一活性(如溶菌酶EC.3.2.1.17)。

【The activity of new GH sequences】部分验证了数据库的预测能力。如图3B所示,27个GH家族的新酶活性预测完全准确,包括多活性家族GH20和GH27。特别是GH5_7亚家族仅关联两种活性,展示亚家族划分对功能预测的提升作用。

75%匹配率'>

这项研究突破了CAZy数据库的功能注释瓶颈,首次建立GH序列-结构域-活性的系统关联体系。ez-CAZy-V2数据库整合了所有CAZy酶类(GT/CE/PL/AA)的最新注释数据,为微生物组分析、酶工程改造提供精准导航。研究者特别指出,未来需要加强新GH亚家族的生化表征和标准化测试,以进一步完善数据库。这项工作不仅为GH研究树立新标准,更为生物质转化、药物开发等应用领域提供了强大的工具支持。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号