
-
生物通官微
陪你抓住生命科技
跳动的脉搏
机器学习模型结合底栖细菌16S rRNA分类学预测海洋冷泉沉积物烃类分布
【字体: 大 中 小 】 时间:2025年08月21日 来源:Microbiology Spectrum 3.8
编辑推荐:
这篇研究开创性地将机器学习(ML)与微生物生态学结合,通过训练梯度提升机(GBM)模型分析16S rRNA基因扩增子数据,成功预测了墨西哥湾东部和斯科舍大陆坡沉积物中的烃类分布。研究揭示了Campylobacterota和Aminicenantia等关键菌群作为生物标志物的潜力,为深海油气勘探提供了微生物组学新工具。
机器学习揭示冷泉沉积物的烃类微生物指纹
ABSTRACT
烃类渗漏对海洋底栖微生物组施加选择性压力,形成独特的群落特征。研究利用墨西哥湾东部和西北大西洋斯科舍大陆坡的16S rRNA基因扩增子数据集,通过H2O AutoML平台比较多种机器学习模型,发现梯度提升机(GBM)在预测烃类存在时表现最优。模型特征重要性分析显示,墨西哥湾样本中Acidobacteriota门的Aminicenantia类和Campylobacterota门的Sulfurovum属对低分子量烃类气体最具指示性,而斯科舍斜坡则以Campylobacterota和Caldatribacteriota门的JS1类群为关键标志物。跨盆地测试表明微生物群落的区域差异会影响预测准确性,但通过联合数据集和特征筛选可显著提升模型泛化能力。
INTRODUCTION
深海沉积物中的冷泉和热液喷口是烃类渗漏的典型环境,塑造了独特的微生物生态系统。传统统计方法仅能识别单一菌群与烃类的相关性,而机器学习可整合整个微生物群落信息进行预测。本研究首次将GBM等算法应用于两个典型油气盆地(墨西哥湾和斯科舍斜坡)的377个样本,通过16S rRNA数据建立预测模型,探索微生物作为烃类生物标志物的普适性规律。
MATERIALS AND METHODS
样本采集方面,墨西哥湾172个表层沉积物(0-20 cm)通过活塞取芯获取,斯科舍斜坡205个样本则涵盖0-600 cm不同深度。烃类检测采用气相色谱(GC)分析C1-C5气体,并通过合成少数类过采样技术(SMOTE)解决数据不平衡问题。16S rRNA V3-V4区经DADA2流程处理,使用SILVA 138数据库分类。机器学习采用H2O AutoML框架,通过10折交叉验证评估性能,以精确率-召回率曲线下面积(AUCPR)和F1分数作为核心指标。
RESULTS
墨西哥湾模型特征
GBM在各级分类水平均表现优异(AUCPR>0.999)。Phylum级Campylobacterota在烃阳性样本中相对丰度达2.09%(阴性仅0.04%),Class级Campylobacteria和Aminicenantia分别呈现5倍和1.9倍富集。值得注意的是,家族级Syntrophotaleaceae虽绝对丰度仅0.11%,但其40倍的差异倍数使其成为高权重特征。
斯科舍斜坡模型特征
Acidobacteriota门因在烃阴性样本中高占比(11.08% vs 4.86%)成为重要负相关指标。Genus级Sulfurovum和JS1类群则与烃阳性显著正相关,印证了这些类群在硫循环中的生态功能。跨盆地预测时,墨西哥湾模型对斯科舍样本的召回率仅50%,凸显生态差异对模型迁移的挑战。
联合模型突破
筛选特征重要性>0.1的类群后,联合模型的F1分数提升至0.74(phylum级),其中Campylobacterota的跨盆地一致性最高。这表明尽管存在区域特异性,某些微生物特征仍具有广谱指示潜力。
DISCUSSION
研究揭示了机器学习在微生物生态预测中的双重性:GBM能捕捉非线性的菌群-烃类关系(如低丰度但高区分度的Syntrophotaleaceae),但也易受采样差异影响。未来需统一烃类检测标准(如区分生物源/热成因烃),并整合功能基因数据提升预测精度。这项研究为深海油气勘探提供了微生物组学新范式,其方法论也可拓展至其他地质-生物交互现象的研究。
(注:全文严格基于原文数据,未添加非文献支持内容,专业术语保留原文格式如Campylobacterota斜体、C1/C2+比值等)
生物通微信公众号
知名企业招聘