
-
生物通官微
陪你抓住生命科技
跳动的脉搏
通过情境感知探索视觉-语言模型中的基础能力
《IEEE Transactions on Cognitive and Developmental Systems》:Exploring Grounding Abilities in Vision-Language Models Through Contextual Perception
【字体: 大 中 小 】 时间:2025年12月11日 来源:IEEE Transactions on Cognitive and Developmental Systems 4.9
编辑推荐:
视觉语言模型(VLMs)通过视觉提示增强对指定区域的关注,但其细粒度 grounding 仍存在标签偏移和幻觉问题。本文提出基于 SoM 的 Contextual Set-of-Mark(ConSoM),结合双图像输入与图像的上下文语义信息,在 Refcocog 数据集上 grounding 准确率提升 11%,并在五个复杂室内场景中验证了其鲁棒性及遮挡处理能力,同时开发了可扩展的像素级问答数据集标注方法。
近年来,机器人技术正以前所未有的速度和深度融入我们的日常生活。具身人工智能(Embodied AI)作为提升机器人智能的关键前沿技术应运而生。具身AI强调机器人通过与物理世界的互动来获取知识和学习,从而提高其感知能力和自主性。这种方法不仅关注机器人的计算能力,还重视它们在物理环境中的实际表现。同时,像GPT和BERT这样的大型语言模型(LLMs)因其处理大量数据和理解复杂语义的非凡能力而在自然语言处理领域之外展现出巨大潜力,并扩展到了机器人技术领域。最近的研究表明,尽管深度学习模型在需要高精度的专门任务中通常优于LLMs,但LLMs仍能提供有竞争力的表现。通过将LLMs与具身AI相结合,机器人可以在更复杂和动态的环境中展现出更高的智能和自主性。这种整合带来了多重优势:首先,LLMs可以为机器人提供增强的感知和认知能力,使其能够理解和处理周围环境中的多种信息;其次,具身AI通过现实世界的互动和反馈帮助LLMs不断调整和优化认知策略,从而提高机器人的适应性和灵活性。
生物通微信公众号
知名企业招聘