CSRef:用于语音指代表达理解的对比语义对齐
《ACM Transactions on Multimedia Computing, Communications, and Applications》:CSRef: Contrastive Semantic Alignment for Speech Referring Expression Comprehension
【字体:
大
中
小
】
时间:2025年11月08日
来源:ACM Transactions on Multimedia Computing, Communications, and Applications
编辑推荐:
提出基于语音的视觉指称理解任务SREC和模型CSRef,整合对比语义对齐机制,实验证明其效率与准确性优于传统方法,并应用于语言引导的面部模糊处理,效果更优。
摘要
参考表达式理解(Referring Expression Comprehension, REC)旨在根据自然语言描述在图像中定位目标对象。尽管现有的REC方法主要依赖于文本输入,但口语作为一种天生自然且易于获取的交流方式,仍尚未得到充分探索。为填补这一空白,我们提出了一种新的任务——语音参考表达式理解(Speech Referring Expression Comprehension, SREC),它允许使用口语作为输入来进行对象定位。为了推进这项任务,我们提出了一种新的方法CSRef,并为此设计了专门的数据集和评估标准。CSRef将全局对比语义对齐(Global Contrastive Semantic Alignment, CSA)机制整合到SREC框架中,从而能够直接从语音中提取语义信息以用于视觉定位。与传统方法(先进行自动语音识别,再执行文本REC)相比,这种方法简化了语义处理流程并降低了复杂性。我们在三个广泛使用的REC数据集上进行了大量实验,这些数据集还包含了合成语音;同时,我们还构建了三个以面部为中心的SREC数据集。实验结果表明,CSRef在效率和准确性方面均优于基于转录的基线方法。此外,我们还在一个下游应用——语言引导的面部模糊处理(language-guided face blurring)中评估了CSRef,并将其与MLLM引导的图像编辑(MLLM-Guided Image Editing, MGIE)方法进行了比较。CSRef在区域修改的精确度和面部模糊效果的整体质量上都表现更优。这些发现表明,CSRef是SREC领域一个有效且可扩展的解决方案,为基于语音的视觉定位技术在现实世界的人机交互场景中的应用带来了希望。代码可在
https://github.com/macrorise-lh/CSRef处获取。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号