
-
生物通官微
陪你抓住生命科技
跳动的脉搏
EcoFoldDB:基于蛋白质结构的生态微生物功能注释新方法突破宏基因组规模的功能解析限制
【字体: 大 中 小 】 时间:2025年09月18日 来源:Environmental Microbiology 4
编辑推荐:
本文介绍了EcoFoldDB数据库及其注释管道EcoFoldDB-annotate的创新性工作,该研究通过整合蛋白质结构信息(Foldseek+ProstT5技术)克服了传统序列同源性分析(如eggNOG-mapper、KofamScan)在宏基因组功能注释中的局限性。研究证实该方法在敏感度(0.863)和精确度(0.982)上显著优于现有工具,并成功应用于全球土壤微生物组(8000个MAGs,3200万蛋白质)的功能解析,揭示了氮循环途径的系统发育分区特征和新型植物促生细菌类群,为微生物生态学研究提供了强有力的结构生物学支持。
微生物群落对行星健康和生态系统过程具有基础性作用。高通量宏基因组测序为解析这些群落的结构和功能提供了前所未有的视角,然而当前基于序列同源性的功能注释方法对进化分歧基因的注释灵敏度有限。蛋白质结构作为比序列更保守且与分子功能本质关联的特征,为该问题提供了解决方案。本研究基于结构生物信息学的最新突破,推出了EcoFoldDB——一个针对生态相关微生物性状策划的蛋白质结构数据库,及其配套管道EcoFoldDB-annotate。该管道利用Foldseek与ProstT5蛋白质语言模型,直接从序列数据实现快速结构同源搜索。在注释宏基因组蛋白质方面,EcoFoldDB-annotate在灵敏度和精确度上均优于最先进的基于序列的方法。为验证其实用性和可扩展性,研究对全球土壤微生物组中8000个高质量宏基因组组装基因组(MAGs)编码的3200万个蛋白质进行了结构引导的功能分析,成功解析了重要氮循环途径(从分类限制的硝化菌到广泛存在的反硝化菌)的系统发育分区,并鉴定了富含植物生长促进性状的新型未培养细菌类群。预计EcoFoldDB将帮助研究者从环境基因组和宏基因组中提取生态见解,加速微生物生态学的发现。
研究涵盖8个微生物功能类别和35个子类别,包括痕量气体氧化、碳循环、氮循环、硫循环、磷循环、铁循环、植物-微生物互作和渗透胁迫耐受机制。通过从Swiss-Prot和MetaCyc等手动策划数据库中筛选具有这些功能注释的蛋白质,并从AlphaFold蛋白质结构数据库(AFDB)获取对应预测结构,使用Foldseek cluster去除冗余(TM-score阈值0.9,双向覆盖度0.9)。最终EcoFoldDB包含842个蛋白质结构,对应637个基因家族。
EcoFoldDB-annotate流程首先过滤超过4000氨基酸的蛋白质序列,随后使用ProstT5将氨基酸序列翻译为Foldseek的3D相互作用(3Di)结构字母表,通过Foldseek对EcoFoldDB进行结构同源搜索,最后基于最佳命中策略(查询与目标覆盖度80%,e值阈值1e-10)分配功能注释。性能测试表明,其召回率(0.863)、精确度(0.982)和F1分数(0.919)均优于eggNOG-mapper和KofamScan。
研究从全球土壤微生物组中获取超过8000个高质量MAGs(>90%完整性,<5%污染,含rRNA和tRNA基因),经去重复(95% ANI,50% AF)后预测出3189万种蛋白质。使用EcoFoldDB-annotate进行功能注释,同时通过GTDB-Tk进行物种分类,PhyloPhlAn 3.0构建全基因组系统发育树。
EcoFoldDB-annotate通过整合ProstT5和Foldseek,实现了比AlphaFold2-ColabFold快约4000倍的结构同源搜索,且不损失灵敏度。在包含31116个已知阳性蛋白和4106个已知阴性蛋白的基准测试数据集中,其表现显著优于序列同源方法,特别适用于注释缺乏序列同源性的宏基因组“暗物质”。
研究展示了EcoFoldDB-annotate在处理大规模数据方面的能力,对3200万个土壤来源的蛋白质序列进行分批处理(每批100万序列),在配备4个Nvidia Tesla Volta V100 GPU和48个CPU核心的服务器上每批耗时约5.3小时,证明了其强大的可扩展性。
结构引导的功能注释揭示了氮循环途径明显的系统发育分区特征:氨氧化作用主要局限于古菌(Nitrosopumilaceae和Nitrososphaeraceae,占80%)和部分细菌(Nitrospirota和Pseudomonadota);而反硝化作用和DNRA途径则广泛分布于多种细菌和古菌中。这证实了古菌在全球氨氧化过程中的主导地位,并突出了反硝化功能的分类广泛性。
研究发现15.9%的MAGs编码两种及以上植物-微生物互作性状,2.5%编码三种及以上。多胺合成和吲哚-3-乙酸(IAA)生产途径分布广泛,而其他性状如trans-Zeatin(76.2%属于放线菌门)和GABA生产(95%属于放线菌门)显示出强烈的分类信号。ACC脱氨酶活性在拟杆菌门(Bacteroidota)中显著富集(55.2%的基因组编码),这一发现尚未见报道。研究进一步鉴定出22个物种水平的MAGs编码四种及以上植物互作性状,其中14个缺乏培养物种代表,10个缺乏属级代表,为靶向分离培养提供了候选菌株。
EcoFoldDB及其注释管道通过利用蛋白质结构信息,显著提高了宏基因组功能注释的灵敏度与准确性,为大规模环境基因组分析提供了有效解决方案。应用于全球土壤微生物组的研究不仅揭示了氮循环功能的系统发育分区模式,还发现了具有多效植物促生潜力的新型细菌类群,为微生物生态学研究和农业应用提供了重要资源。
生物通微信公众号
知名企业招聘