利用机器学习和深度学习方法对真菌糖基转移酶进行分类和功能预测
《Fungal Ecology》:Classification and functional prediction of fungal glycosyltransferases using machine learning and deep learning methods
【字体:
大
中
小
】
时间:2025年11月10日
来源:Fungal Ecology 2.2
编辑推荐:
糖基转移酶(GTs)的分类因结构、功能和序列的多样性而复杂,本研究利用卷积变分自编码器(CVAE)整合AlphaFold2预测的三维结构、序列及生化特征,基于88种真菌的3340个GTs数据,生成低维潜在向量并采用k-means聚类,结果显示多维度数据融合显著提升了分类准确性,为GTs的系统分类提供了新方法。
这篇文章探讨了使用机器学习和深度学习技术对糖基转移酶(Glycosyltransferases, GTs)进行分类的方法,以应对GTs在结构、功能和机制上的广泛多样性所带来的分类难题。GTs是一类在生物系统中负责催化糖基转移反应的多功能酶,它们通过将活性糖基转移到受体分子上,形成糖苷键,从而产生结构多样性。这些酶在所有生物中普遍存在,占古菌、细菌和真核生物基因产物的1%到2%。GTs根据其反应机制和立体化学特性,主要分为两种类型:保留酶和翻转酶。保留酶在反应过程中保持供体的异头碳构型,而翻转酶则会改变这一构型。从结构上看,GTs通常被分为GT-A和GT-B两种三维折叠类型,但也有较少见的变种,如GT-C、GT-D和GT-E。
GTs的遗传、结构和功能多样性给它们的分类带来了巨大挑战。目前,GTs主要依据序列相似性、保守基序和底物特异性等标准被归入139个家族中。然而,这种分类方式存在诸多局限性,例如同一家族内的酶可能具有不同的功能特异性,使得准确预测其生物学活性变得困难。此外,虽然通常认为同一家族内的酶具有相似的三维折叠类型,但实际上并非总是如此。例如,GT14和GT16等家族的成员并不总是具有相同的折叠结构。在某些情况下,GTs可能具有相同的功能并具有高度相似的结构,但彼此之间几乎没有序列同源性。这种现象进一步凸显了GTs在结构和功能上的复杂性。
传统的分类方法主要依赖于蛋白质序列及其比对,如Campbell等人(1997)、Coutinho等人(2003)和Strodthoff等人(2020)的工作,同时参考了CAZy数据库中的现有分类(Cantarel等人,2009)。然而,这些方法往往难以捕捉到GTs在结构、功能和立体化学特性之间的潜在联系。因此,研究者提出了一种基于深度学习的分类方法,利用卷积变分自编码器(Convolutional Variational Autoencoder, CVAE)模型,对GTs的结构和生化特性进行综合分析,从而建立一个更全面、更准确的分类系统。
CVAE是一种深度生成模型,它通过结合卷积层与变分推理,能够学习复杂多维数据的紧凑潜在表示。这种模型不仅能够捕捉蛋白质的空间结构,还能反映其概率变异性。与传统的基于序列比对的方法(如pHMM)相比,CVAE在性能上具有显著优势,例如DeepFam和ProtCNN等基于深度学习的模型在多个实验中表现出色。此外,深度学习技术还可以揭示传统方法无法识别的隐藏模式,从而为GTs的功能分类提供新的视角。
研究团队构建了一个包含88种代表性真菌物种的GTs数据集,涵盖了多种真菌门类,包括子囊菌门(Ascomycota)、担子菌门(Basidiomycota)、接合菌门(Mucoromycota)和虫霉门(Zoopagomycota)。通过对这些物种的全部蛋白质序列进行下载和整合,研究者获得了超过430万条蛋白质序列。随后,他们使用隐马尔可夫模型(HMMs)对这些序列进行了过滤,以去除低质量或非相关的序列。最终,他们从这些序列中识别出10,199条GTs序列,并从中选取了3,755条用于AlphaFold2(ColabFold)的折叠预测。其中,88.9%的序列获得了pLDDT(预测的局部距离图)评分≥70,表明其三维结构预测的可靠性较高。在这些序列中,有2,493条注册在UniProt数据库中,其中31.7%包含了功能信息,8.9%具有生物过程注释。
为了更全面地分析GTs的结构和功能特征,研究者将序列数据与AlphaFold预测的三维结构数据相结合。他们使用了完整的蛋白质结构,包括辅助结构域,而不是仅依赖于核心序列(如常见的231个氨基酸)。这种方法能够更准确地反映GTs的全貌,从而提高分类的可靠性。通过将三维结构数据转换为三维体素(voxelized)形式,研究者将这些数据输入到CVAE模型中,使其能够在低维潜在空间中对蛋白质结构进行压缩,同时保留关键的结构和生化信息。这种压缩表示使得结构特征和生化变量能够被同时整合,为后续的分类任务提供了更丰富的数据基础。
研究者还对数据进行了丰富的衍生变量和描述性统计分析,以增强分类模型的准确性。这些变量包括序列长度、保守基序的位置、特定残基的分布等。通过这些变量的引入,CVAE模型能够更全面地捕捉GTs的多样性特征。随后,研究者使用k-means算法对这些数据进行聚类分析和分类,以识别蛋白质之间的相似性模式。结果表明,使用了丰富数据的聚类方法比仅基于结构数据的聚类方法更符合k-means算法生成的分组结果,说明整合生化和结构信息能够显著提高分类的准确性。
研究者指出,传统的GTs分类方法主要依赖于序列相似性,而忽略了结构信息和辅助结构域的贡献。因此,他们提出了一种基于深度学习的分类方法,通过结合序列和三维结构信息,能够更全面地理解GTs的功能和结构关系。这种方法不仅能够改进现有的分类系统,还可能为未来的新分类体系提供理论基础。通过深度学习技术,研究者可以揭示GTs在结构、功能和立体化学特性之间的潜在联系,从而为生物技术和酶设计提供更强大的工具。
在实际应用中,这种基于CVAE的分类方法具有重要的意义。首先,它能够加速GTs的发现和功能鉴定过程,帮助研究人员更快地识别具有特定功能的酶。其次,它能够为酶工程和合成生物学提供支持,使研究人员能够根据结构特征和功能需求设计新的酶。此外,这种方法还可以用于预测未注释GTs的生物学功能,从而扩展我们对GTs家族的理解。在生物技术领域,GTs被广泛应用于药物开发、生物材料制造和生物燃料生产等多个方面,因此,一个更准确和全面的分类系统将有助于推动这些领域的研究和应用。
为了验证这种方法的有效性,研究者进行了详细的实验和分析。他们首先对数据进行了预处理,包括序列过滤和三维结构预测。随后,他们构建了一个包含多种变量的特征空间,并使用CVAE模型对这些数据进行压缩。最后,他们通过聚类分析和分类任务评估了模型的性能。实验结果表明,该方法在分类准确性、聚类一致性以及数据整合能力方面均优于传统的分类方法。这不仅证明了CVAE模型在处理GTs数据方面的有效性,也展示了深度学习技术在生物信息学中的巨大潜力。
总之,这项研究为GTs的分类提供了一种新的方法,即通过结合序列和三维结构信息,利用深度学习技术揭示GTs的潜在分类模式。这种方法不仅克服了传统分类方法的局限性,还为未来的GTs研究提供了更强大的工具。通过构建一个基于CVAE的分类系统,研究者希望能够更准确地理解GTs的功能和结构关系,从而推动相关领域的进一步发展。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号