基于文本引导参数高效微调分割的零样本目标计数方法研究

【字体: 时间:2025年06月23日 来源:Neurocomputing 5.5

编辑推荐:

  针对动态开放环境中目标计数依赖封闭数据集和人工标注的难题,天津师范大学团队提出TPSC网络,通过融合CLIP语义特征与SAM分割能力,设计Type-Text token和MaskCLIP模块,结合轻量级Adapter实现参数高效微调,在FSC-147等数据集上达到SOTA性能,为零样本计数提供新范式。

  

在智慧城市建设和生态监测等领域,精准的目标计数技术至关重要。传统方法如交通流量统计、野生动物种群监测等,往往受限于封闭数据集和繁琐的人工标注,难以应对动态开放环境中的未知类别目标。尽管类无关计数(CAC)技术通过少量示例实现了跨类别扩展,但其依赖人工标注的缺陷仍会导致目标漏检,且缺乏语义理解能力。这促使研究者探索多模态融合策略——通过结合文本描述与图像特征,构建更智能的计数系统。

天津师范大学的Mingzhu Shi团队在《Neurocomputing》发表的研究中,提出TPSC(Text-guided Parameter-Efficient Fine-Tuning Segmentation Counting)网络。该研究创新性地将CLIP的语义对齐能力与SAM的零样本分割优势相结合,仅通过微调少量参数即实现开放环境下的高精度计数。实验表明,TPSC在FSC-147、CARPK等数据集上性能超越现有方法,为类无关计数提供了可扩展的解决方案。

关键技术方法
研究采用参数高效微调(PEFT)技术,核心模块包括:1)从CLIP提取图像特征FC和文本特征Tt生成Type-Text token与候选框;2)MaskCLIP模块通过两层Transformer实现CLIP到SAM的知识迁移;3)在SAM编码器最后四层嵌入轻量级Adapter增强特征提取。所有模块仅更新0.8%参数量,保持预训练模型泛化能力。

研究结果

类无关目标计数
通过对比GMN等传统方法,TPSC利用文本描述替代人工标注示例,在FSC-147测试集上MAE(平均绝对误差)降低21.3%,证明语义引导能有效缓解类别偏差问题。

方法设计
Type-Text token与SAM原始提示符交互,显著提升文本相关目标的掩码预测准确率;MaskCLIP模块使小目标分割IoU提高14.7%;双Adapter结构增强对稀疏目标的敏感性,计数误差较基线下降32%。

实验验证
在CARPK无人机停车数据集上,TPSC计数准确率达98.4%,且推理速度较纯CLIP方案快3倍。DIS5K医学图像分割实验进一步验证其跨领域适应性,病灶计数F1-score提升19.2%。

结论与意义
该研究首次实现CLIP与SAM在计数任务中的高效协同:1)Type-Text token建立文本-图像语义桥梁;2)MaskCLIP和Adapter模块以极小参数量(<1%)突破预训练模型领域限制;3)为零样本计数提供可解释性强、扩展性优的通用框架。其技术路线可延伸至智慧交通、生态监测等需要动态目标统计的场景,为多模态大模型的下游应用提供重要参考。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号