结合贝叶斯网络、机器学习和网络方法挖掘微生物组疾病生物标志物的混合框架
《Biology Methods and Protocols》:A hybrid framework for disease biomarker discovery in microbiome research combining bayesian networks, machine learning, and Network-Based methods
【字体:
大
中
小
】
时间:2025年12月15日
来源:Biology Methods and Protocols 2.5
编辑推荐:
本研究针对微生物组研究中网络构建不可靠和疾病相关类群识别不一致两大挑战,开发了基于条件互信息的贝叶斯网络算法CMIMN R包,并提出整合SPIEC-EASI、SPRING、SPARCC和CMIMN的共识网络方法。通过结合机器学习特征选择和网络拓扑分析的多方法框架,在土豆疮痂病土壤微生物组中成功鉴定出Bacteroidota、C0119等关键致病相关类群,为微生物组生物标志物发现提供了可重复的分析范式。
在我们脚下的土壤中,存在着一个比热带雨林更为复杂的生态系统——土壤微生物组。这些看不见的微生物群落通过错综复杂的相互作用,直接影响着作物的健康与产量。然而,当科学家们试图解析这些微生物之间的关联时,却面临着两大难题:不同算法构建的微生物网络差异巨大,犹如盲人摸象般难以获得全面认知;而识别与疾病相关的关键微生物时,不同方法得出的结果也常常大相径庭。
以马铃薯这一全球第四大粮食作物为例,其常见的疮痂病每年造成巨大的经济损失。传统防治方法如熏蒸不仅效果不稳定,还会带来环境负担。相比之下,利用土壤中天然存在的抑病微生物群落进行生物防治,无疑是一条更可持续的路径。但要实现这一目标,首先需要准确找出那些真正与疾病相关的关键微生物类群。
正是在这一背景下,威斯康星大学麦迪逊分校的研究团队在《Biology Methods and Protocols》上发表了他们的最新成果。他们开发了一套综合性的分析框架,将贝叶斯网络、机器学习和网络分析方法巧妙结合,为微生物组研究提供了新的解决方案。
研究团队采用了几项关键技术方法:首先开发了基于条件互信息(CMI)的CMIMN算法,通过动态阈值和顺序独立性处理改进网络推断;然后整合SPIEC-EASI、SPRING、SPARCC四种方法构建共识网络;最后结合七种机器学习算法和两种网络拓扑策略(差异中心性分析和加权评分)进行特征选择。研究基于威斯康星州和明尼苏达州土豆田的256份土壤样本,在门、纲、目三个分类水平上进行分析。
研究团队收集了土豆种植前土壤样本,通过16S rRNA和ITS2测序获取微生物群落数据,保留在至少15个样本中出现的OTUs(操作分类单元)进行下游分析。他们发现,不同的数据标准化方法(对数转换、CLR、GMPR、TSS)对网络推断稳定性有显著影响,其中对数转换在多数情况下表现最优。
新开发的CMIMN算法通过三个关键创新解决了传统方法的局限:顺序独立性确保节点处理顺序不影响结果;动态阈值基于分位数而非固定值,提高灵活性;稀疏性控制通过参数q1=70%和q2=95%平衡敏感性与特异性。自举分析显示CMIMN在不同分类水平上均表现出最稳定的重现性。
研究发现,四种网络推断方法(SE_glasso、SPRING、SPARCC、CMIMN)得出的网络结构重叠度极低——在门水平仅有24条共享边,纲水平80条,目水平522条。这种不一致性凸显了单一方法的局限性,而共识网络通过加权整合(边权重0-4代表支持方法数量)提供了更可靠的微生物互作视图。
机器学习方法通过七种算法和四种标准化策略的组合,为每个OTU计算TOTAL得分(被选为重要的方法数量)。网络方法则分别构建健康与患病样本的网络,通过中心性指标差异和复合评分识别关键类群。两种策略的交叉验证大大提高了结果的可信度。
在门水平,Bacteroidota、WPS-2和Proteobacteria被两种网络策略共同识别;纲水平的Actinobacteria和AD3显示出强烈的网络结构重要性;而目水平的C0119是唯一被所有ML方法和两种网络策略共同确认的类群。特别值得注意的是,C0119这一未培养的类群在生物炭改良土壤中频繁出现,可能与碳循环和土壤健康密切相关。
研究人员发现,"清洁块茎"样本的微生物网络连接更为密集,表明健康土壤中存在更稳定、协作性更强的微生物群落。而患病样本的网络则更加碎片化,某些关键类群的中心性发生显著变化。例如,Actinobacteriota与Gemmatimonadota的互作仅在患病网络中出现,这可能反映了微生物群落对病原胁迫的结构重组。
研究的讨论部分指出,CMIMN算法虽然表现出色,但仍存在一定局限性:它没有显式校正成分数据(compositional data)的固有偏差,且无法保留关联的正负符号(合作或竞争关系)。此外,环境因素(如土壤化学性质)未被纳入分析,某些关联可能反映的是共享的环境偏好而非直接互作。
尽管如此,这项研究的价值在于其方法论上的创新。通过整合多种推断方法和特征选择策略,研究为微生物组生物标志物的发现提供了更可靠、可重复的框架。特别值得注意的是,所有分析基于种植前土壤样本,表明疾病相关的微生物信号在病害发生前就已存在,这为早期诊断和干预提供了可能。
该研究的意义远超出土豆疮痂病的具体案例。其开发的CMIMN R包和共识网络方法可广泛应用于农业和临床微生物组研究。未来,团队计划开发用户友好的Shiny应用程序,让生物学家能够轻松上传自己的微生物组数据,识别可靠的类群-疾病关联,从而推动微生物组研究向更可重复、更生物意义明确的方向发展。
随着微生物组研究的不断深入,这种综合多种方法优势的研究策略将越来越重要。它不仅帮助我们更准确地理解微生物世界的复杂互作,也为利用微生物组改善人类健康、农业生产和环境保护提供了新的工具和思路。在这个看不见的微观世界中,科学家的"视力"正在变得越来越好。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号