基于自编码器的微生物组数据稀疏性填补方法mbSparse研究

【字体: 时间:2025年09月02日 来源:Gut Microbes 11

编辑推荐:

  微生物组数据的稀疏性问题严重制约了其分析效能。来自未知机构的研究人员开发了基于自编码器的填补方法mbSparse,通过深度学习技术有效重构缺失的微生物丰度数据。该方法在模拟和真实数据集中均展现出优于传统方法的性能,为微生物组研究的可靠性提供了新工具。

  

微生物组(microbiome)研究中,数据稀疏性(sparsity)是阻碍分析的关键瓶颈。传统填补方法如零值替换或均值插补会引入偏差,而基于k-最近邻(kNN)或随机森林的方法难以捕捉微生物间的复杂互作。这项研究提出的mbSparse方法创新性地采用堆叠自编码器(stacked autoencoder)架构,通过非线性降维学习微生物丰度(abundance)的潜在特征,再重构完整数据集。

技术层面,mbSparse首先对原始操作分类单元(OTU)表进行对数变换,随后通过多层编码器-解码器结构提取微生物群落的核心特征。特别设计的损失函数(loss function)能同时优化重构误差和特征空间距离,确保对稀有物种(rare taxa)的填补准确性。在模拟数据集benchmark中,该方法在Bray-Curtis距离和物种丰富度(species richness)指标上显著优于对照方法。

实际应用显示,mbSparse处理后的肠道微生物组数据能更准确地识别疾病标志物(biomarker),例如炎症性肠病(IBD)相关的普雷沃菌属(Prevotella)和粪杆菌属(Faecalibacterium)的差异丰度。方法还兼容16S rRNA和宏基因组(metagenomics)等不同测序技术产生的数据,其Python实现支持GPU加速,处理百万级OTU表仅需分钟级耗时。这项技术为微生物组-宿主互作(microbe-host interaction)研究提供了更可靠的数据基础。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号