FeatureForest:融合基础模型与随机森林的生物图像语义分割新方法

【字体: 时间:2025年07月09日 来源:npj Imaging

编辑推荐:

  针对生物图像分割中深度学习模型依赖大量标注数据、随机森林分类器性能有限的问题,研究人员开发了FeatureForest方法,通过结合SAM2、DINOv2等基础模型的特征嵌入与随机森林分类器,实现了仅需少量标注即可完成复杂图像的语义分割。该方法在FIB-SEM、H&E染色等多模态数据中Dice分数提升30%以上,为大规模电子显微镜数据分析提供了高效工具,相关成果发表于《npj Imaging》。

  

在生物医学图像分析领域,图像分割是定量研究的基础步骤,但传统方法面临两难困境:深度学习模型(如U-Net、CellPose)需要大量标注数据且训练复杂,而随机森林分类器虽交互友好却难以区分纹理相似的目标。尤其对于电子显微镜(FIB-SEM)等三维大体积数据,人工标注成本高昂,现有算法在复杂场景下性能急剧下降。

针对这一挑战,来自欧洲分子生物学实验室(EMBL)等机构的研究团队提出FeatureForest创新框架,通过融合基础模型的强大特征表示能力与随机森林的交互优势,实现了"小标注、高性能"的语义分割。该研究近期发表于《npj Imaging》,在飞脑线粒体、肾小球等复杂结构分割中,Dice分数较传统方法提升达58%,为生物医学图像分析提供了新范式。

研究采用三项关键技术:1)利用SAM2、DINOv2等基础模型提取像素级特征嵌入(1536维);2)基于napari平台开发交互式标注工具,支持用户通过涂鸦标注训练随机森林;3)创新性结合SAM2的边界框提示进行后处理,提升分割平滑度。实验覆盖FIB-SEM、H&E染色、无标记明场三种模态数据,通过边界F1分数(Boundary F1)、Hausdorff距离等指标定量评估。

FeatureForest原理
通过替换传统随机森林的图像滤波器,直接利用SAM2等模型的深层特征训练分类器。

显示其工作流程:用户标注少量像素后,模型提取对应特征向量(320-1536维)训练随机森林,通过迭代优化实现全图分割。后处理阶段采用SAM2自动生成边界框提示,显著改善线粒体膜等细微结构的分割完整性。

多模态显微镜数据验证
在飞脑FIB-SEM数据中,FeatureForest的Dice分数达0.88±0.05,远超随机森林的0.61±0.07(表1)。

显示其对乳腺癌球体中线粒体的分割效果:传统方法因纹理混淆导致Dice仅0.30,而FeatureForest准确识别形态多变的细胞器(Dice 0.74)。在肾小球H&E染色图像中,后处理使边界F1分数从0.63提升至0.87,证明SAM2提示能有效修复复杂边缘。

多类分割与大尺度应用
研究成功实现浮游生物细胞器(图3)的六类同步分割,其中藻类质体Dice达0.88±0.02。

展示通过3598层切片重建的宿主/猎物线粒体空间分布,为器官窃取(organelle hijacking)现象研究提供量化基础。

模型对比与鲁棒性
SAM2_Large在多数数据集表现最优(表3),DINOv2仅在飞脑数据略优(Dice 0.89)。噪声实验显示,当信噪比(SNR)低于10 dB时,高斯噪声使Dice下降约15%,但仍优于传统方法。计算效率方面,MobileSAM在CPU处理256×256图像仅需1.61秒,适合资源受限场景。

该研究突破性地将基础模型特征与交互式学习结合,解决了生物图像分析中的标注效率瓶颈。其开源实现(BSD-3-Clause许可)支持用户扩展新模型,特别适用于电子显微镜等三维大数据的快速分析。未来通过集成领域自适应(domain adaptation)技术,有望进一步拓展在病理切片等场景的应用深度。研究团队特别强调,该方法的核心优势在于"让非专业用户也能驾驭最先进的深度学习特征",这将显著加速生命科学领域的图像驱动发现。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号