
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于轻量级多尺度注意力机制的可部署实时脊柱内镜图像分割系统
《npj Digital Medicine》:Deployable real-time spinal endoscopic instance segmentation with lightweight multi-scale attention mechanism
【字体: 大 中 小 】 时间:2026年06月12日 来源:npj Digital Medicine 15.1
编辑推荐:
摘要 在脊柱内窥镜检查中,实时实例分割对于识别和保护关键解剖结构至关重要,但受到视野狭窄、镜面反射、烟雾/出血伪影、边界模糊以及大规模变化等因素的阻碍。此外,在小批量(通常为单个样本)环境下使用时,还需要保证模型的准确性、速度和稳定性。我们提出了EndoSeg
在脊柱内窥镜检查中,实时实例分割对于识别和保护关键解剖结构至关重要,但受到视野狭窄、镜面反射、烟雾/出血伪影、边界模糊以及大规模变化等因素的阻碍。此外,在小批量(通常为单个样本)环境下使用时,还需要保证模型的准确性、速度和稳定性。我们提出了EndoSeg-RT,这是一个可部署的实时框架,专为脊柱、颈部和头部设计,采用了轻量级的多尺度注意力机制。脊柱部分(C2f-Pro)结合了RepViT风格的重新参数化卷积和高效的多尺度注意力机制:通过多分支训练获取丰富的特征,并在推理时将这些特征融合为一条低延迟的处理路径。颈部部分通过“尺度序列特征融合”(Scale-Sequence Feature Fusion)和“三重特征编码”(Triple Feature Encoding)技术增强了跨尺度一致性和边界质量,从而提升了高分辨率解剖结构的识别效果。头部部分采用了“轻量级多任务共享头模型”(Lightweight Multi-task Shared Head),该模型通过共享卷积和GroupNorm机制减少了冗余,稳定了单样本训练和推理过程。我们还发布了一个经过临床验证的PELD数据集,包含61名患者的610张图像,这些图像标注了脂肪组织、骨骼、黄韧带和神经等结构的实例级别信息。大量实验表明,EndoSeg-RT在保持较低复杂度(仅180万个参数和8.8 GFLOPs计算量)的同时,实现了与现有方法相当甚至更优的准确率,显著超越了其他实例分割模型。该模型在公共牙科实例分割基准测试中也表现出良好的泛化能力,证明了其在脊柱内窥镜领域之外的适用性。代码和数据集可在此处获取:https://github.com/hhwmortal/PELD-Instance-segmentation。