dbCAN-HGM:全球人群肠道宏基因组中碳水化合物活性酶基因簇的资源库与功能解析

《Nucleic Acids Research》:dbCAN-HGM: CAZyme gene clusters in gut microbiomes of diverse human populations

【字体: 时间:2025年11月21日 来源:Nucleic Acids Research 13.1

编辑推荐:

  本研究针对人类肠道微生物组中碳水化合物活性酶(CAZyme)基因簇(CGC)的系统性注释与跨人群比较资源匮乏的问题,开发了dbCAN-HGM数据库。该研究整合了6031个高质量物种级代表宏基因组组装基因组(MAG),鉴定了121,883个CGC,并通过基因组成相似性聚类构建了11,314个CGC家族(CGC-F),其中259个家族被预测了特异性聚糖底物。数据库创新性地提供了不同饮食模式(素食、杂食等)与疾病状态(炎症性肠病)下CGC的宏基因组读段映射覆盖度可视化、差异丰度分析及未知蛋白的三维结构比对结果。该资源为研究肠道微生物的碳水化合物代谢机制、宿主-微生物互作及个性化营养策略开发提供了重要平台。

  
人类肠道中栖息着数以万亿计的微生物,它们与宿主的健康息息相关。这些微生物拥有一种关键“武器”——碳水化合物活性酶(CAZyme),能够分解人体无法直接消化的复杂膳食纤维(如抗性淀粉、阿拉伯木聚糖)以及宿主自身产生的黏蛋白等聚糖物质。这些被微生物利用的碳水化合物被称为微生物可及碳水化合物(MACs)。CAZyme的降解产物如短链脂肪酸,对调节免疫反应、维持肠道稳态至关重要。然而,编码这些CAZyme的基因在细菌基因组中往往不是孤立存在的,而是与转运蛋白、调控因子等共同组成物理上相连的基因簇,即CAZyme基因簇(CGC)。其中,那些经过实验验证、底物明确的CGC被称为多糖利用位点(PULs)。全面解析不同人群肠道微生物中CGC的多样性、分布规律及其功能,对于理解饮食-微生物-宿主三者互作、揭示代谢疾病机制乃至开发精准营养干预策略具有重大意义。
尽管近年来宏基因组测序技术蓬勃发展,尤其是针对以往研究不足的非洲人群产生了大量数据,但专门致力于整合全球多人群肠道微生物CGC资源,并能关联饮食、疾病等元数据进行深度挖掘的数据库仍属空白。已有的工具如dbCAN-seq虽能预测CGC,但其覆盖的人群范围有限,且缺乏对CGC家族(CGC-F)的系统聚类和底物推断功能。为了填补这一空白,来自美国内布拉斯加大学林肯分校的研究团队在《Nucleic Acids Research》上发布了dbCAN-HGM数据库。该数据库旨在系统性地收录、注释并可视化人类肠道细菌中的CGC和CAZymes,为相关领域的研究人员提供一个强大的数据挖掘和知识发现平台。
研究人员为构建dbCAN-HGM,主要采用了以下几项关键技术方法:首先,从10项已发表研究中收集了15,084个高质量人类肠道MAG,经过严格去冗余和物种水平聚类,得到6,031个物种级代表MAG(srMAG)。其次,利用CGC-Finder从srMAG中预测CGC,并通过同源性搜索从已知PULs推断出同源PULs(iPULs)。然后,基于基因簇内蛋白家族标签的Jaccard指数(JI)进行马尔可夫聚类(MCL),将CGCs和PULs聚类成CGC-Fs,以实现底物推断。接着,选取涵盖不同饮食(纯素、素食、杂食、弹性素食)和疾病(克罗恩病CD、溃疡性结肠炎UC、非IBD)的宏基因组样本,通过Bowtie2将测序读段映射至srMAGs,提取CGC区域的覆盖度并进行差异丰度分析。最后,对CGC中未被任何数据库注释的未知蛋白(null proteins)进行AlphaFold2三维结构预测,并利用Foldseek与已知蛋白结构库(AFDB, CAZyme3D)进行比对,以发现潜在的新CAZymes。
物种级MAGs来自多样化人群
研究团队整合了来自全球不同人群的10个大型肠道宏基因组研究数据集,包括非洲(H3Africa Phase 1 & 2, Hadza)、亚洲(CGMR, IMGG, SPMP)、欧洲/北美(UHGG, WIS, ELGG)以及全球范围(HRGM2)的样本。经过严格的质量控制和去冗余(99.9% ANI),获得了13,886个非冗余MAGs。进一步在物种水平(≥95% ANI)聚类后,最终得到6,031个srMAGs,极大地丰富了对非洲(覆盖41.0%的srMAG簇)和亚洲(47.9%)人群肠道菌群基因资源的覆盖,弥补了此前数据库(如UHGG)的不足。
PULs、iPULs、CGCs及CGC-Fs的全面注释
研究从dbCAN-PUL数据库中获取了602个实验验证的PULs,并通过同源性搜索在srMAGs中识别出756个iPULs,这些iPULs继承了其最佳匹配PUL的底物标签。同时,利用CGC-Finder从6,031个srMAGs中预测出121,883个CGCs。将PULs、iPULs和CGCs合并去冗余后,基于基因组成相似性(JI > 0.5)进行MCL聚类,最终形成了11,314个CGC-Fs。其中,259个CGC-Fs同时包含已知底物的PULs/iPULs(659个)和未标记的CGCs(4,640个),使得这些CGCs能够被预测其靶向的聚糖底物。这些CGC-Fs被归类到12种主要聚糖底物下,如宿主聚糖、α-葡聚糖和β-葡聚糖等组的CGC-Fs数量更多、规模更大,提示这些底物在肠道微生物代谢中占据重要地位。利用已知PULs进行的基准测试表明,基于JI的聚类方法对大多数底物组的预测F1分数超过0.8,验证了其可靠性。
读段映射揭示CGC在不同条件下的丰度特征
为了评估CGCs在真实微生物群落中的丰度情况,研究选取了三个独立的宏基因组研究(两个饮食干预研究和一个IBD研究)的样本数据,将测序读段映射到6,031个srMAGs上,并提取每个CGC区域的覆盖度信息。结果显示,分别有29,759(24.4%)、27,575(22.6%)和7,864(6.5%)个CGCs在上述三个研究中被成功映射。进一步对每个CGC内的基因进行差异丰度分析发现,在不同饮食模式(如素食vs杂食)和疾病状态(如UC vs 非IBD)的比较中,存在大量差异丰度基因(DAGs),其中相当一部分是CAZyme基因。例如,在De Filippis 2019的研究中,素食样本相比杂食和纯素样本有22,771个DAGs显著富集。这些结果为研究饮食或疾病相关的碳水化合物代谢通路变化提供了重要线索。数据库网站为每个CGC提供了交互式的覆盖度图,直观展示其在不同条件下的表达情况。
未知蛋白的结构比较揭示潜在新CAZymes
对于CGC中未被任何数据库注释的42,002个未知蛋白(null genes),研究团队利用AlphaFold2预测了其三维结构。其中28.1%的蛋白具有高置信度(pLDDT > 90),51.0%具有中等置信度(pLDDT 70-90)。通过Foldseek将这些预测结构与AFDB(UniProt蛋白)和CAZyme3D(已知CAZymes)数据库进行比对,发现分别有6,075(14.5%)和5,324(12.7%)个未知蛋白与已知蛋白存在显著的全局结构相似性(TM-score > 0.8)。这一发现意义重大,因为它提示在CGC的基因组背景下,可能存在大量通过序列比对无法识别、但结构与已知CAZymes相似的新型CAZymes,为实验表征新的酶家族提供了宝贵的候选目标。
用户友好的网络平台与案例展示
dbCAN-HGM提供了一个高度交互的网站(https://pro.unl.edu/dbCAN_HGM),用户可按大陆、门类浏览基因组,按底物浏览CGC-Fs,按底物和大陆浏览CGCs。每个CGC页面集成了丰富的注释信息、读段映射覆盖度图、差异丰度统计值以及未知蛋白的结构比对结果。网站还专门设置了“CGCs中差异丰度CAZymes”和“未知蛋白”查询入口,方便用户快速锁定感兴趣的研究目标。通过案例研究展示了如何利用该数据库发现特定底物(如木聚糖)降解CGC在特定饮食(如纯素)样本中显著富集,并鉴定出其中未知蛋白与GH43_2家族CAZyme具有高度结构相似性,体现了数据库在驱动新假设产生和候选基因筛选方面的强大能力。
综上所述,dbCAN-HGM数据库首次系统性地构建了覆盖全球多人群(尤其非洲人群)的人类肠道微生物CGC资源库,并通过创新的CGC-F聚类、多条件宏基因组读段映射丰度分析以及蛋白质三维结构比对,极大地促进了我们对肠道微生物碳水化合物代谢潜能及其在饮食、疾病背景下变化规律的理解。该数据库不仅为微生物生态、宿主-微生物互作等基础研究提供了宝贵资源,也为未来开发基于微生物组的个性化营养策略和疾病干预措施奠定了坚实的数据基础。研究人员计划每年更新数据库,纳入新的MAGs和宏基因组样本数据,并优化CGC聚类与底物推断流程,以持续提升其科学价值和应用潜力。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号