多视角视觉对比解码技术:实现可靠的辅助功能

《ACM Transactions on Internet of Things》:Multi-Perspective Visual Contrastive Decoding for Reliable Assistance

【字体: 时间:2026年02月16日 来源:ACM Transactions on Internet of Things

编辑推荐:

  视障辅助技术中多模态大语言模型(MLLMs)面临图像质量退化、物体不完整和空间错位三大挑战。本文提出MPVCD框架,通过噪声对比解码、检索对比解码和焦点对比解码三种视角动态平衡优化,有效降低视觉描述幻觉并提升准确性,为视障人士环境理解提供可靠技术支持。

  

摘要

摘要

多模态大型语言模型(MLLMs)在辅助盲人及视力受损者(BLV)方面具有巨大潜力,但在处理由 BLV 捕获的图像时,其效果会受到影响。这些图像通常面临三个根本性问题:质量下降、对象不完整以及空间错位。本文提出了 MPVCD(多视角视觉对比解码)这一创新框架,通过视觉对比解码技术来解决这些问题。MPVCD 实现了三种专门的解码方法:噪声对比解码通过比较原始图像和添加噪声后的图像来解决质量问题;检索对比解码通过从记忆库中检索语义相似的图像来处理对象不完整的问题;焦点对比解码则通过聚焦检测到的对象区域来解决空间错位问题。这些方法通过自适应视角集成机制进行动态平衡,该机制根据预测的置信度来优化词元选择。我们在多种数据集上的全面实验表明,MPVCD 在不同场景下都能有效减少视觉幻觉现象。通过生成更准确、更可靠的视觉描述,MPVCD 为辅助技术带来了重大进步,使 BLV 用户能够更自信地利用这些技术来理解环境和做出决策。

AI 摘要

AI 生成的摘要(实验结果)

本摘要是由自动化工具生成的,并非由文章作者撰写或审核。它旨在帮助读者发现研究价值、评估文章相关性,并辅助来自相关研究领域的读者理解本文内容。它是对作者提供的摘要的补充,而作者提供的摘要仍是文章的正式摘要。完整文章才是权威版本。点击此处了解更多

点击 此处 对摘要的准确性、清晰度和实用性进行评论。您的反馈将有助于改进未来的摘要版本。

AI 生成的摘要不可用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号