
-
生物通官微
陪你抓住生命科技
跳动的脉搏
FeatureForest:融合基础模型与随机森林的生物图像语义分割新方法
【字体: 大 中 小 】 时间:2025年07月09日 来源:npj Imaging
编辑推荐:
针对生物图像分割中深度学习模型依赖大量标注数据、随机森林分类器性能有限的问题,研究人员开发了FeatureForest方法,通过结合SAM2、DINOv2等基础模型的特征嵌入与随机森林分类器,实现了仅需少量标注即可完成复杂图像的语义分割。该方法在FIB-SEM、H&E染色等多模态数据中Dice分数提升30%以上,为大规模电子显微镜数据分析提供了高效工具,相关成果发表于《npj Imaging》。
在生物医学图像分析领域,图像分割是定量研究的基础步骤,但传统方法面临两难困境:深度学习模型(如U-Net、CellPose)需要大量标注数据且训练复杂,而随机森林分类器虽交互友好却难以区分纹理相似的目标。尤其对于电子显微镜(FIB-SEM)等三维大体积数据,人工标注成本高昂,现有算法在复杂场景下性能急剧下降。
针对这一挑战,来自欧洲分子生物学实验室(EMBL)等机构的研究团队提出FeatureForest创新框架,通过融合基础模型的强大特征表示能力与随机森林的交互优势,实现了"小标注、高性能"的语义分割。该研究近期发表于《npj Imaging》,在飞脑线粒体、肾小球等复杂结构分割中,Dice分数较传统方法提升达58%,为生物医学图像分析提供了新范式。
研究采用三项关键技术:1)利用SAM2、DINOv2等基础模型提取像素级特征嵌入(1536维);2)基于napari平台开发交互式标注工具,支持用户通过涂鸦标注训练随机森林;3)创新性结合SAM2的边界框提示进行后处理,提升分割平滑度。实验覆盖FIB-SEM、H&E染色、无标记明场三种模态数据,通过边界F1分数(Boundary F1)、Hausdorff距离等指标定量评估。
FeatureForest原理
通过替换传统随机森林的图像滤波器,直接利用SAM2等模型的深层特征训练分类器。

多模态显微镜数据验证
在飞脑FIB-SEM数据中,FeatureForest的Dice分数达0.88±0.05,远超随机森林的0.61±0.07(表1)。

多类分割与大尺度应用
研究成功实现浮游生物细胞器(图3)的六类同步分割,其中藻类质体Dice达0.88±0.02。

模型对比与鲁棒性
SAM2_Large在多数数据集表现最优(表3),DINOv2仅在飞脑数据略优(Dice 0.89)。噪声实验显示,当信噪比(SNR)低于10 dB时,高斯噪声使Dice下降约15%,但仍优于传统方法。计算效率方面,MobileSAM在CPU处理256×256图像仅需1.61秒,适合资源受限场景。
该研究突破性地将基础模型特征与交互式学习结合,解决了生物图像分析中的标注效率瓶颈。其开源实现(BSD-3-Clause许可)支持用户扩展新模型,特别适用于电子显微镜等三维大数据的快速分析。未来通过集成领域自适应(domain adaptation)技术,有望进一步拓展在病理切片等场景的应用深度。研究团队特别强调,该方法的核心优势在于"让非专业用户也能驾驭最先进的深度学习特征",这将显著加速生命科学领域的图像驱动发现。
生物通微信公众号
知名企业招聘