通过情境感知探索视觉-语言模型中的基础能力

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《IEEE Transactions on Cognitive and Developmental Systems》：Exploring Grounding Abilities in Vision-Language Models Through Contextual Perception

【字体：大中小】 时间：2025年12月11日 来源：IEEE Transactions on Cognitive and Developmental Systems 4.9

编辑推荐：

　　视觉语言模型（VLMs）通过视觉提示增强对指定区域的关注，但其细粒度 grounding 仍存在标签偏移和幻觉问题。本文提出基于 SoM 的 Contextual Set-of-Mark（ConSoM），结合双图像输入与图像的上下文语义信息，在 Refcocog 数据集上 grounding 准确率提升 11%，并在五个复杂室内场景中验证了其鲁棒性及遮挡处理能力，同时开发了可扩展的像素级问答数据集标注方法。

摘要：

视觉语言模型（VLMs）在图像理解和推理等领域展现了强大的通用能力并取得了显著的成功。视觉提示有助于VLMs更专注于特定区域，但其细粒度的信息关联能力尚未得到充分开发。最近的研究采用了“标记集合”（SoM）方法，利用预训练的生成式Transformer-4与视觉模型（GPT-4V）相结合，取得了良好的基准测试成绩。然而，SoM方法仍存在标签偏移和VLMs产生幻觉的问题，导致其信息关联能力有限，难以应对人机交互中的复杂场景。为了解决这些问题并提供更准确、更少幻觉的结果，我们提出了基于SoM的新提示机制——上下文标记集合（ConSoM），该机制利用双图像输入和图像的上下文语义信息。实验表明，ConSoM在视觉信息关联方面具有明显优势，在Refcocog数据集上的表现比基线模型提高了11%。此外，我们在五种室内场景中评估了ConSoM的信息关联能力，发现它在复杂环境和遮挡条件下表现出很强的鲁棒性。我们还引入了一种可扩展的像素级问答数据集标注方法。ConSoM的准确性、可扩展性和丰富的世界知识使其成为未来人机交互中的一种高效方法。

引言

近年来，机器人技术正以前所未有的速度和深度融入我们的日常生活。具身人工智能（Embodied AI）作为提升机器人智能的关键前沿技术应运而生。具身AI强调机器人通过与物理世界的互动来获取知识和学习，从而提高其感知能力和自主性。这种方法不仅关注机器人的计算能力，还重视它们在物理环境中的实际表现。同时，像GPT和BERT这样的大型语言模型（LLMs）因其处理大量数据和理解复杂语义的非凡能力而在自然语言处理领域之外展现出巨大潜力，并扩展到了机器人技术领域。最近的研究表明，尽管深度学习模型在需要高精度的专门任务中通常优于LLMs，但LLMs仍能提供有竞争力的表现。通过将LLMs与具身AI相结合，机器人可以在更复杂和动态的环境中展现出更高的智能和自主性。这种整合带来了多重优势：首先，LLMs可以为机器人提供增强的感知和认知能力，使其能够理解和处理周围环境中的多种信息；其次，具身AI通过现实世界的互动和反馈帮助LLMs不断调整和优化认知策略，从而提高机器人的适应性和灵活性。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号