多模态大语言模型(LLMs)的视觉推理一致性及鲁棒性分析
《Pattern Recognition》:Visual Reasoning Consistency and Robustness Analysis of Multimodal LLMs
【字体:
大
中
小
】
时间:2025年11月20日
来源:Pattern Recognition 7.6
编辑推荐:
多模态大语言模型评估基准研究,提出整合多图像推理、拒绝机制和熵一致性指标的创新框架,揭示ChatGPT-o1等模型在推理稳定性和不确定性校准上的优势,同时指出Janus模型存在显著位置偏差和推理波动问题。
随着人工智能技术的迅猛发展,大型语言模型(LLMs)在自然语言处理、推理以及生成任务中展现出了前所未有的能力,如ChatGPT和PaLM。然而,传统的评估方法主要集中在单一图像推理上,忽略了诸如上下文理解、推理稳定性以及不确定性校准等关键因素。这一局限性限制了对模型实际能力的全面了解,尤其是在多模态场景下的表现。为了弥补这一不足,本文提出了一种全新的评估基准,该基准整合了多图像推理任务,并引入了基于拒绝的评估机制和位置偏差检测。我们还引入了熵这一新指标,用于衡量模型在重新排序答案变体时的推理一致性,同时提出了“拒绝率”这一新度量标准,用于评估模型在无法回答时是否倾向于避免选择不确定的答案。通过评估包括Grok 3、ChatGPT-4o、Gemini 2.0 Flash Experimental和DeepSeek的Janus模型在内的八种最先进的模型,我们发现ChatGPT-o1在总体准确率(82.5%)和拒绝准确率(70.0%)方面表现突出,紧随其后的是Gemini 2.0 Flash Experimental(70.8%)。相比之下,Janus模型在拒绝准确率方面表现较差(Janus 7B为25.0%,Janus 1B为30.0%),并且具有较高的熵值(Janus 7B为0.839,Janus 1B为0.787),这表明它们容易受到位置偏差的影响,并且推理不够稳定。通过采用多图像上下文、拒绝机制以及基于熵的推理一致性度量,这一评估基准为多模态LLMs提供了一个新的评估标准,使得下一代AI系统能够更全面、可靠地进行评估。
多模态模型在连接视觉和语言理解方面展现出强大的能力,这使得它们在诸如视觉问答(VQA)、文档理解、医学图像解释和多模态对话系统等广泛应用领域中发挥着重要作用。然而,现有的多模态评估基准仍然存在不足,主要集中在孤立的感知任务,而非实际应用中所需的复杂推理能力。虽然早期的VQAv2和AI2D等数据集关注于单一图像的理解,但近年来的MMMU和MathVista等基准已经引入了多图像任务、逻辑比较和数学推理。MUIRBench进一步推动了该领域的发展,通过加入无法回答的问题变体,使得评估更加贴近实际场景。然而,这些评估方式仍未能系统性地衡量推理一致性、不确定性校准和对位置偏差的敏感性。因此,本研究在此基础上,引入了多图像推理、无法回答问题变体、重新排序答案变体以及基于熵的推理一致性评估等四个关键标准,为多模态模型的评估提供了更全面的视角。
本研究采用了一个包含120个问题和376张图片的评估数据集,这些数据来源于MUIRBench,确保了评估的多样性与平衡性。与传统的单图像任务不同,这一数据集挑战模型处理和整合多个视觉输入,从而构成一个更严格的评估框架,用于测试上下文、空间和逻辑推理能力。数据集涵盖了多种类型的图像,包括现实世界照片、医学影像、科学图表和卫星图像,这有助于模型在不同场景下进行推理。同时,数据集还包含多种多图像关系,如时间序列、互补视角和多视图表示,以评估模型在多图像场景下的推理能力。这种结构化的评估方式不仅确保了模型的推理能力,还避免了模型依赖于简单的模式识别。
在模型选择方面,我们评估了多种先进的多模态语言模型,包括Janus 7B、Janus 1B、Grok 3、Gemini 2.0 Flash Experimental、QVQ-72B-Preview、Qwen2.5-VL-72B-Instruct、Pixtral 12B以及ChatGPT-o1和ChatGPT-4o。这些模型具有不同的参数规模和创新特性,为评估多模态语言模型提供了广泛的基础。例如,Janus 7B和Janus 1B是DeepSeek开发的开源模型,具备处理多图像的能力。Grok 3则是XAI开发的具有2.7万亿参数的模型,展现了其在多模态任务中的潜力。Gemini 2.0 Flash Experimental由DeepMind开发,支持多图像和视频处理,适用于实时视觉推理任务。QVQ-72B-Preview和Qwen2.5-VL-72B-Instruct则是阿里巴巴开发的开源模型,具有强大的多图像推理能力。Pixtral 12B是Mistral AI开发的120亿参数模型,专注于高分辨率图像分析和文本生成。ChatGPT-o1和ChatGPT-4o则由OpenAI开发,支持多图像和视频输入,增强了上下文理解能力。
为了确保评估的一致性和公平性,我们采用了标准化的实验设置,每个问题以结构化格式呈现,包括文本提示和相应的图像。模型需要根据提供的图像选择最合适的答案。为了评估模型的一致性和稳定性,每个问题都被测试在不同的变体中,包括可回答版本、重新排序版本以及无法回答版本。通过这些变体,我们能够检测模型是否依赖于位置偏差,或者是否能够正确识别无法回答的问题。这一评估方法不仅关注模型的正确性,还注重其推理过程的稳定性。
在评估过程中,我们发现了一些关键的性能差异。ChatGPT-o1在总体准确率和拒绝准确率方面表现突出,分别达到82.5%和70.0%。相比之下,Janus 7B和Janus 1B在拒绝准确率方面表现较差,分别只有25.0%和30.0%,同时它们的熵值较高,表明推理过程不够稳定。QVQ-72B-Preview在地理理解方面表现出色,但在图像-文本匹配和差异检测任务中存在明显的问题。Qwen2.5-VL-72B-Instruct在多个任务中表现中等,但其在卡通理解方面存在困难,这可能与其内容过滤机制过于严格有关。Pixtral 12B在特定任务如卡通理解方面表现出色,但其在差异检测和图像-文本匹配任务中表现不佳。
此外,我们还评估了模型的拒绝率和熵值。QVQ-72B-Preview和Grok 3表现出较高的拒绝率,这表明它们在面对不确定问题时倾向于选择“无选项可选”这一答案。相比之下,ChatGPT-o1和ChatGPT-4o在拒绝率方面表现更为平衡,既能够识别无法回答的问题,又不会过度拒绝。Janus 7B和Janus 1B则表现出较低的拒绝率,这表明它们在面对不确定问题时倾向于选择一个答案,即使该答案是错误的。这些结果揭示了不同模型在处理不确定性和位置偏差方面的不同策略,也强调了熵值作为衡量推理一致性的关键指标的重要性。
本研究的发现表明,模型的规模并不总是与其推理能力成正比。尽管Grok 3具有2.7万亿参数,但在推理稳定性方面表现不佳,甚至在某些任务中表现出过度保守的拒绝倾向。Janus 7B和Janus 1B虽然参数较少,但在多个任务中表现不佳,这可能与其训练数据或优化策略有关。这些结果强调了在多模态任务中,有效的训练和优化策略对于模型性能的重要性。
此外,我们还发现,尽管开源模型在某些任务中表现良好,但在复杂的多模态推理任务中,专有模型如ChatGPT-o1和Gemini 2.0 Flash Experimental仍然占据优势。这可能是因为专有模型能够访问更高质量的训练数据和更先进的优化技术。然而,开源模型如Pixtral 12B在某些任务中表现优异,这表明通过有针对性的训练和优化,开源模型仍有可能在特定领域与专有模型竞争。
本研究的评估方法不仅揭示了模型在推理任务中的表现,还提供了对模型行为的深入理解。通过引入重新排序答案变体和熵值作为一致性指标,我们能够更全面地评估模型的推理能力和稳定性。这些方法为未来的多模态评估基准提供了新的思路,使得模型的评估更加细致和全面。未来的研究应进一步探索这些评估方法在其他多模态任务中的应用,以推动多模态AI技术的发展。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号