编辑推荐:
在生物膜研究中,获取大量带注释图像的数据集困难重重。研究人员开展深度生成模型构建注释细菌生物膜图像合成数据集的研究。结果显示合成数据集可提升模型训练效果,该研究为生物膜研究提供新方法,意义重大。
在微观的生物世界里,细菌生物膜就像一个神秘的 “城市”,它们广泛存在于各种环境中,从医疗设备表面到海洋深处,从工业管道到人体内部。这些小小的生物群体蕴含着巨大的能量,对环境过程的理解、生物技术的发展以及感染性疾病的治疗都有着至关重要的影响。
然而,在探索这个 “城市” 的过程中,研究人员遇到了一个棘手的问题。目前,生物膜分析的关键限制因素是难以获得大量带完全注释的图像数据集。没有充足且高质量的数据,就如同在黑暗中摸索,很难精准地了解生物膜的结构、功能以及它们在各种过程中的作用。为了打破这个困境,来自俄罗斯图拉国立大学(Tula State University)和俄罗斯科学院泽林斯基有机化学研究所(Zelinsky Institute of Organic Chemistry, Russian Academy of Sciences)等机构的研究人员展开了一项深入的研究。
他们的研究聚焦于利用深度生成模型技术创建带注释的生物膜图像合成数据集。研究人员通过一系列实验,成功地构建了一个深度学习框架,能够生成高质量的合成电子显微镜数据,这些数据包含了完全注释的生物膜图像。这一成果意义非凡,它为生物膜研究带来了新的曙光,使得在宏观层面进行更精确的自动化定量分析成为可能。该研究成果发表在《npj Biofilms and Microbiomes》上。
在研究过程中,研究人员主要运用了以下关键技术方法:首先,使用扫描电子显微镜(SEM)获取生物膜图像数据;然后,通过预注释(包括手动注释和无监督计算机视觉分割)提取单细胞和支撑物,为后续模型训练做准备;接着,运用变分自编码器(VAE)、生成对抗网络(GAN)、扩散模型等生成单细胞图像和支撑物图像;之后,将单细胞和支撑物图像进行合并,并利用 CycleGAN 进行图像到图像的转换,以提高合成图像的真实性;最后,使用 Mask R-CNN 模型对合成数据进行训练和评估。
下面来详细看看研究结果:
- 管道概述:研究人员开发了一个生成合成数据集的工作流程。先通过 SEM 获得实验记录的细菌图像,再进行预注释,接着分别训练生成单细胞和无细胞支撑物的模型,最后合并两者并通过 CycleGAN 调整图像,从而得到大量合成注释生物膜 SEM 图像。
- 预注释:预注释可通过手动注释或无监督计算机视觉分割两种方式进行。手动注释质量理想,但耗费人力和时间;无监督分割速度快,但质量稍弱,可通过人工筛选改进。研究对比了基于 Blob 检测和基于图像阈值化与自动轮廓分析去除伪影这两种无监督分割方法,发现后者在分割质量指标上表现更优。
- 单细胞图像生成:使用 VAE、GAN 和扩散模型生成单细胞图像。VAE 训练时对不同大小细胞图像进行预处理,卷积 VAE 生成质量更好;GAN 选择 Wasserstein GAN(WGAN),其在训练稳定性、避免梯度问题等方面表现出色,卷积层的使用也提升了效果;扩散模型通过正向和反向过程生成多样图像,训练时对数据进行处理,结果显示其生成图像具有多样性。研究使用 Frechet Inception Distance(FID)评估生成模型,发现 WGAN 生成数据质量最佳。同时,对生成细胞进行过滤,去除由多个部分组成、长宽比异常和非凸的细胞,过滤后图像质量提升,FID 值降低。
- 支撑图像生成:利用扩散概率模型生成支撑物合成图像,对训练数据进行增强处理,模型训练效果良好,计算生成支撑图像的 FID 值为 138.5。相比之下,VAE 和 WGAN 生成支撑图像的质量较低,未被进一步使用。
- 细胞和支撑合并:研究人员分析真实数据集确定细胞在支撑物上的相对位置模式,包括单细胞、垂直对、角落对、水平对和水平对带偏移这五种基本类型。合并算法根据这些模式,从生成的细胞图像和支撑图像构建合成生物膜,过程中对细胞图像进行预处理,形成注释标签列表,用于后续模型质量评估。
- CycleGAN 训练:为使合成图像更真实,利用 CycleGAN 进行图像到图像的转换。训练时准备真实和合成图像数据集,训练后生成的合成生物膜图像更逼真,增强了对生物膜结构和特征的准确表示。
- 生成生物膜后期阶段图像:通过在支撑图像上放置更多细胞并训练新的 CycleGAN 模型,模拟生物膜成熟阶段的细胞簇和基质,训练后的模型可生成用于训练 U-Net 模型的合成数据集,有助于研究生物膜发育后期阶段。
- 在合成数据上训练 Mask R-CNN:应用生成的注释生物膜图像数据集训练 Mask R-CNN 模型,通过对比不同实验设置下的模型性能,发现考虑细胞配置的数据集训练的模型检测质量更好,合成数据集能代表真实数据中的简单细胞配置,且训练数据集达到 120 张图像时可获得稳定质量。与在真实数据上训练的模型相比,合成数据集训练的模型在质量上不逊色,适合用于训练检测和分割真实生物膜图像的模型。
- 合成数据生成性能:使用普通实验室个人计算机测试算法性能,一天可生成大量包含细菌细胞的图像及相关数据,一个月内 32 个计算单元可产生约 19TB 数据,满足高数据需求应用。
- 方法应用于其他微生物:研究人员将该方法应用于多种微生物,如鲍氏不动杆菌(Acinetobacter baumannii)、嗜盐节杆菌(Arthrobacter halodurans)和金黄色葡萄球菌(Staphylococcus aureus),证明该方法具有通用性,在不同物种上训练的模型具有一定的泛化能力。
研究结论和讨论部分指出,这项研究利用深度生成模型技术生成合成注释生物膜图像,有效解决了生物膜研究中数据稀缺和偏差的问题。合成数据集能够模拟真实生物膜结构,提升计算机视觉模型性能,有助于深入理解生物膜行为和结构。此外,研究开发的算法高效,可快速生成大规模自动注释数据集,还提供了网络应用程序方便图像生成。然而,该方法也存在一些局限性,如添加新细菌物种时需收集和标注图像,训练 CycleGAN 模型耗时,且该方法在其他显微镜技术下的性能有待研究。但总体而言,这项研究为生物膜研究开辟了新道路,为未来自动化生物膜分析以及环境和生物医学应用奠定了基础,具有重要的科学价值和应用前景。