
-
生物通官微
陪你抓住生命科技
跳动的脉搏
迈向无词汇语义分割:从开放词汇到自动化场景理解的突破
【字体: 大 中 小 】 时间:2025年09月22日 来源:Pattern Recognition Letters 3.3
编辑推荐:
为解决开放词汇分割中需预先指定类别名的瓶颈问题,研究人员开展无词汇语义分割(VSS)研究,提出集成视觉语言模型(VLM)的两阶段自动化流水线,通过图像标注和上下文生成实现无需预定义词汇的像素级识别,在多个数据集上显著提升分割准确性,推动开放场景下的自适应视觉理解。
在计算机视觉领域,语义分割一直是场景理解的核心任务,它通过对图像中的每个像素赋予语义标签,实现对物体的精确边界识别。传统的分割模型通常在封闭的数据集特定类别上进行训练,其灵活性受到严重限制。随着对视觉场景泛化理解需求的增长,分割任务逐渐向开放世界设置转变,开放词汇语义分割(Open-Vocabulary Semantic Segmentation, OVSS)应运而生。这类模型能够识别训练数据之外的新颖对象类别,用户只需提供图像和一组自由形式的感兴趣类别名称即可。然而,这种灵活性也带来了新的挑战:用户需要预先知道场景中所有潜在对象类别,这不仅不切实际,也缺乏可扩展性;同时,类别名称本身的质量问题,如标注不一致、术语模糊等,也严重影响模型性能。这形成了一个“鸡与蛋”的悖论:用户需要了解所有对象才能识别它们,但分割的目的恰恰是为了发现这些对象。
针对这些限制,来自德国慕尼黑工业大学的研究团队在《Pattern Recognition Letters》上发表了一项创新研究,提出了一种完全自动化的无词汇语义分割(Vocabulary-Free Semantic Segmentation, VSS)流水线,消除了对预定义类别词汇的依赖。该研究通过整合视觉语言模型(Visual-Language Models, VLM)的自动对象识别和类别名称生成能力,旨在解决类别指定和命名质量的难题。
研究人员采用的关键技术方法主要包括:基于CLIP (Contrastive Language-Image Pre-training)的视觉和文本编码器架构,实现图像与文本特征的跨模态对齐;使用RAM (Recognize Anything Model)和CaSED (Class-agnostic Semantic Entity Detection)等先进图像标注模型进行自动对象识别;通过Sentence-BERT进行语义相似度计算,实现预测类别与真实标签的软匹配;采用早期文本融合策略,将标注器生成的文本特征在分割流水线起始阶段就与图像嵌入进行融合;并在COCO-Stuff数据集上对分割主干网络进行训练,使用二元交叉熵损失进行优化。
研究结果通过多个基准数据集上的系统实验得到验证:
3.1. Problem formulation部分明确了VSS的问题定义:与OVSS需要已知类别名称集合不同,VSS直接在一个包含所有可能语义概念的巨大空间S中操作,无需任何先验类别知识。函数f将图像空间X映射到S(H×W)中的语义图,每个像素被赋予来自S的标签,实现了真正的零样本分割。
3.2. Two-stage pipeline部分详细描述了提出的两阶段流水线:首先使用CLIP图像编码器ΦV生成密集图像嵌入DV∈R(H×W)×d,同时使用文本编码器ΦL生成文本嵌入DL∈RN×d。通过计算图像嵌入和类别嵌入之间的余弦相似度得到成本体积C∈R(H×W)×N,然后进行K次特征聚合迭代,包括空间聚合和类别聚合两个步骤,最终通过上采样解码器产生分割预测。
3.3. Evaluation assignment部分提出了评估分配策略:为了解决标注器预测与数据集标签不对齐的问题,研究采用Sentence-BERT计算预测类别名称与真实类别名称嵌入之间的余弦相似度,实现软匹配,确保即使预测文本与真实文本不完全匹配,也能进行合理评估。
4.1. Benchmark evaluation部分展示了基准测试结果:在多个数据集上的实验表明,提出的流水线在所有数据集上都持续优于以前的VSS方法。在软评估分配下,该方法再次实现卓越性能,特别是在类别数量较大的数据集上。RAM标注器表现出最强的性能,定性结果显示当前方法能够在没有预定义词汇的情况下填补预测与原始数据集标签之间的差距。
4.2. Segmentation analysis部分分析了分割性能:实验结果显示,在训练期间仅提供图像特定文本标签而非整个词汇表,可以在推理时应用相同调整的情况下提高分割性能。当使用图像标注器预测的标签或在推理时应用完整的图像标签集时,没有观察到相同的收益。添加图像特定内容的结果是有益的,特别是对于大量类别的情况。
4.3. Image tagging analysis部分评估了图像标注方法:通过比较CaSED、RAM和Llava-1.6三种架构,发现RAM在所有评估数据集上获得最佳整体结果。模拟实验表明,模型对假阴性高度敏感,但对假阳性具有鲁棒性,这解释了为什么RAM优于当前替代方案。
4.4. Evaluation assignment thresholds部分探讨了评估分配阈值:研究发现,随着类别数量的增加,需要更高的阈值来获得更好的分数,敏感性随着类别数量的增加而减弱。该方法在阈值上优于ZeroSeg,并在无阈值指标上优于denseCaSED、SAN+CaSED和SAM+CaSED。
研究结论表明,提出的无词汇语义分割流水线有效解决了当前开放词汇分割方法的限制,通过自动化对象识别和类别名称生成,消除了对预定义词汇的依赖。实验证明该流水线在多个数据集上显著提高了分割准确性,特别是对于上下文外的对象。文本编码器在模型泛化能力中扮演关键角色,其效果与实际图像内容和生成类别描述之间的对齐密切相关。尽管与开放词汇分割方法仍存在性能差距,但无词汇方法在安全关键领域显示出强大潜力,如自动驾驶中需要对未知或罕见对象进行灵活分类。结合无词汇分割与结构化开放词汇方法,是构建可靠、上下文感知分割系统的有前景方向。
该研究的重要意义在于首次系统性地解决了开放词汇分割中的"鸡与蛋"悖论,为实现真正的开放世界场景理解奠定了基础。通过完全自动化的流水线设计,减少了对人工干预的依赖,提高了视觉系统在真实世界应用中的实用性和可扩展性。随着图像标注模型的不断进步,自适应标注与形容词驱动的文本增强相结合,有望进一步增强分割流水线的性能。
生物通微信公众号
知名企业招聘