多队列宏基因组学揭示菌株功能异质性并证实粪便微生物载量校正优化结直肠癌诊断模型

【字体: 时间:2025年09月25日 来源:Frontiers in Microbiology 4.5

编辑推荐:

  本推荐研究通过整合七个全球队列的1,123例宏基因组样本,系统开展了多层级宏基因组关联分析(MWAS)。研究创新性地揭示了同一物种内不同菌株在结直肠癌(CRC)中呈现功能异质性(如Bacteroides thetaiotaomicron不同菌株分别显示保护与风险效应),并通过基因组功能注释阐明了其潜在机制。尤为重要的是,粪便微生物载量(FML)校正显著减少了技术混杂,提升了跨队列CRC分类模型的性能(AUC改善显著)。尽管菌株分析提供了更精细的生物学见解,但属、种水平特征因丰度高、跨人群保守性强,展现出更稳健的诊断预测能力。该研究为微生物组在CRC中的机制研究和临床诊断应用提供了关键见解。

  

引言

结直肠癌(CRC)作为全球第二大癌症相关死亡原因,其早期诊断面临重大挑战。近年来,大量研究确立了肠道微生物组与CRC发展的关键关联,其相互作用主要通过微生物代谢、炎症调控、免疫失衡及肠道屏障功能障碍等机制介导。尽管现有研究多聚焦于属或种水平的分类学分析,但同一微生物物种内的不同菌株可能表现出显著的表型异质性和甚至相反的生物学功能。例如,大肠杆菌(Escherichia coli)既包含合成必需维生素的益生菌株Nissle 1917,也含有与溶血性尿毒症综合征和致命性腹泻相关的高致病性变体。随着宏基因组测序深度和高分辨率分类学分析工具的发展,菌株水平的宏基因组关联研究(MWAS)已成为解析微生物组功能特征的新途径。此外,粪便微生物载量(FML)作为影响微生物组成分析的重要因素,其校正对减少虚假关联、提升模型性能具有潜在价值。

材料与方法

研究收集了来自七个国家(奥地利、中国、印度、法国、意大利、美国、日本)的七个独立CRC队列的1,123例粪便全宏基因组测序(WMS)数据。样本经过统一标准化流程处理,包括使用KneadData进行质量控制与宿主污染去除,Trimmomatic进行序列质量过滤和接头修剪。菌株水平丰度分析采用Sylph(V0.6.1)针对自定义非冗余菌株数据库(GTDB:206273)进行,而属和种水平分类注释则使用MetaPhlAn4(V4.1.1)完成。FML通过微生物载量预测器(MLP)基于物种水平分类谱进行估计。微生物多样性分析包括计算Shannon指数和丰富度(alpha-多样性)以及基于Bray-Curtis距离的PERMANOVA(beta-多样性)。样本按8:2比例划分为训练集与测试集,并重复100次以降低随机分组偏差。差异丰度分析采用MaAsLin2(V1.20.0),以疾病状态、年龄、性别、BMI和FML作为协变量。菌株基因组的功能注释利用VFDB(毒力因子数据库)、CARD(全面抗生素抗性数据库)和KEGG数据库进行。批次效应校正采用CLR转换后ComBat方法处理。疾病分类器构建基于随机森林(RF)结合递归特征消除交叉验证(RFECV)和超参数优化,模型性能通过AUC等指标评估,并采用留一国出策略进行跨队列验证。

结果

队列特征与多级微生物群多样性分析

分析显示,不同地理队列中α-多样性模式存在异质性。在印度和奥地利样本中,CRC病例在属、种和菌株水平均表现出比对照组显著更高的Shannon多样性和丰富度指数,而其他队列中组间差异较小或不显著。线性回归模型进一步表明,除印度外,FML对所有队列中所有分类水平的Shannon和丰富度指标均有显著影响。β-多样性分析中,基于Bray-Curtis相异性的主坐标分析(PCoA)反映了α-多样性趋势,在大多数队列中,CRC病例与对照组在微生物群落结构上存在显著差异(除意大利和美国样本外)。当FML作为协变量纳入PERMANOVA时,它成为影响所有分类水平和队列群落结构的显著因素,证实了其在微生物组组成分析中作为关键混杂子的作用。

结直肠癌中同种菌株的对比效应

研究观察到,绝大多数样本中每个物种的菌株数(SN)不超过2个,且91%的总样本中少于20%的物种具有SN≥2。通过MaAsLin2分析,在所有队列(除美国外)中检测到同一物种的两个或多个菌株,并在印度和日本队列中,某些物种(如Vescimonas sp900555735、Avimicrobium caecorum、Bacteroides thetaiotaomicron和Dorea formicigenerans)的不同菌株显示出与CRC风险相反的关联(由回归系数指示)。为探究其潜在生物学机制,研究对菌株基因组进行了功能注释。基于VFDB和CARD的基因存在/缺失数据,结果显示风险菌株通常携带更多样化的毒力因子基因(VFGs)和抗生素抗性基因(ARGs)。具体而言,风险菌株携带的VFGs包括fliP(可能通过TLR5/NF-κB途径诱导慢性炎症)和rfaD(参与细菌脂多糖(LPS)生物合成,可能触发炎症反应)。其他VFGs如cps4I和pseB可能促进细菌定植、免疫逃逸和宿主炎症反应。CARD数据显示,ARGs如ACI-1、dfrF和tet(O/W/40)可能反映了与生态失调和微生物活性增加相关的群落结构。KEGG通路分析比较显示,风险菌株中map00540(LPS生物合成相关,可能通过TLR4/NF-κB信号通路诱导慢性炎症)和map05111(霍乱弧菌感染相关,可能通过维持慢性感染和局部炎症促进致癌作用)富集;而保护菌株中map00511(其他聚糖降解相关,可能帮助维持正常糖基化水平)和map00600(鞘脂代谢相关,可能通过调节神经酰胺-S1P平衡促进凋亡和抗炎作用)富集。这些发现凸显了菌株水平分析在解析微生物组功能异质性方面的效用,为开发靶向菌株的治疗干预提供了合理基础。

FML校正提升疾病分类器性能

通过MaAsLin2从训练集中选择的显著特征(菌株、种和属水平)被输入分类模型,测试集用于模型性能的队列内验证。在所有队列中(除意大利外),FML校正增加了检测到的差异特征数量,且属和种水平特征始终多于菌株水平。为应对特征数量可变性,采用RFECV选择优化AUC的特征子集。系统评估显示,在菌株水平,基于FML校正特征构建的模型在所有队列中均优于未校正模型(尽管统计显著性程度不同)。在属和种水平,FML归一化也一致增强了判别准确性。为验证单队列模型结论的可靠性,研究进一步进行了跨队列验证。批次效应校正后,疾病状态在属、种和菌株水平的影响分别从0.123、0.073、0.058降低至0.016、0.017、0.010。PCA显示校正后队列间重叠显著增加,表明批次效应得到有效控制。基于校正数据重新进行差异特征分析和分类器构建,跨队列结果进一步证实了初始结论的稳健性:FML校正提升了CRC分类模型的预测性能。

更高分类水平优于菌株水平疾病分类器

通过比较基于属、种和菌株水平特征构建的模型性能,发现除FML校正的印度数据集外,在所有队列中,属和种水平模型在AUC方面均显著优于菌株水平模型(无论微生物载量是否校正)。这一趋势在跨队列验证中也得以观察,属和种水平模型在不同地理人群中表现出更强的泛化能力。两种推测机制可能解释这一现象:菌株水平特征通常比更高分类水平表现出更低的相对丰度,导致宏基因组分析中的技术噪声增加和信噪比降低;菌株特异性标记高度受个体宿主背景(如遗传、生活方式)和地理因素影响,限制了其跨队列的可转移性。这些发现强调,虽然菌株分析揭示了生物学异质性,但属和种水平特征为临床诊断应用提供了更稳健和可重复的信号,在多队列设置中平衡了机制见解与实际效用。

讨论

本研究利用来自七个独立队列的1,123个宏基因组样本,系统评估了肠道微生物组与结直肠癌(CRC)在不同分类水平(属、种和菌株)的关联,并探讨了粪便微生物载量(FML)校正对疾病分类模型性能的影响,比较了不同分类分辨率的预测能力。大多数队列显示CRC患者的Shannon多样性和丰富度指数高于健康对照,与先前表明CRC中微生物群多样性增加的研究一致。然而,并非所有队列中该趋势均统计显著,可能反映了人群背景、地理环境和研究设计对微生物群落结构的复杂影响。Beta-多样性分析显示CRC病例与对照组之间的组成差异有限,暗示显著的微生物组结构改变可能主要发生在疾病晚期。研究观察到绝大多数样本中每个物种的菌株数不超过两个,且在多个队列中,同一物种内的不同菌株表现出与CRC风险的相反关联。这一发现强调了菌株水平的功能异质性,其中同种菌株可通过不同机制影响宿主健康。菌株水平分析提供了比更高分类水平更精细的生物学分辨率,能够识别潜在致病性或保护性菌株。此外,通过对同一物种内风险和保护菌株基因组的

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号