CATE:基于能量锚定的共识感知校准方法,用于测试时提示调优

《Knowledge-Based Systems》:CATE: Consensus-Aware Calibration for Test-Time Prompt Tuning via Energy Anchoring

【字体: 时间:2026年02月13日 来源:Knowledge-Based Systems 7.6

编辑推荐:

  CATE通过能量锚定和共识机制解决Test-Time Prompt Tuning的过置信冗余困境,提升校准效果并保持高准确率。

  
王敏|贾苗|杨浩|程青|黄金才
国防科技大学系统工程学院,中国长沙,410073

摘要

测试时提示调优(TPT)通过最小化增强视图上的边际熵,使视觉语言模型(VLMs)能够在没有标记数据的情况下适应新领域。然而,边际熵最小化(MEM)本质上会加剧输出分布的尖锐度,而不会纠正其潜在的不确定性,从而导致信心膨胀,这种信心并不能反映在分布变化下的真实可靠性,从而在预测信心和实际准确性之间产生显著的校准不匹配。此外,现有的TPT方法依赖于基于softmax的视图选择,这倾向于选择高信心但视觉上冗余的样本,牺牲了对鲁棒适应至关重要的特征多样性。为了解决这些限制,我们引入了CATE——一种基于共识的测试时提示调优框架,该框架利用能量锚定作为可靠的无监督信号。CATE通过基于能量的投票在低不确定性视图之间识别出一个稳定的锚定类别,然后聚合语义上一致的预测以形成一个共识集。为了校准适应,每个视图都根据基于能量的信心和跨模态相似性进行加权,从而实现同时优先考虑可靠性和语义对齐的熵最小化。在细粒度和分布变化基准测试上的实验表明,CATE在保持竞争力准确性的同时,实现了比现有方法显著更好的校准效果。我们的结果突显了将视觉不确定性和共识信号纳入测试时适应的重要性。

引言

像CLIP这样的视觉语言模型(VLMs)通过对齐视觉和文本表示,彻底改变了零样本识别[1]、[3]。为了弥合预训练和特定下游任务之间的差距,测试时提示调优(TPT)[4]提供了一个有吸引力的范式:它仅使用未标记的测试实例即时调整提示。TPT的核心机制是生成单个测试图像的多个增强视图,然后优化模型的提示,以在这些视图上产生一致的预测,通常是通过最小化它们的集体预测熵来实现的。为了提高鲁棒性,主流策略采用基于信心的视图选择,该方法过滤掉噪声较大、信心较低的视图,从而将适应重点放在更可靠的子集上,但正是这种基础逻辑受到了我们的挑战。
基于信心的选择背后的逻辑基于一个关键但有缺陷的假设:高预测信心可靠地表明了一个高质量、信息丰富的视图。这个有缺陷的前提是该方法脆弱性的主要来源,并直接导致了我们正式定义的“过度信心-冗余困境”。这种困境形成了一个恶性循环:选择过程倾向于选择视觉上冗余、多样性低的视图(如图1(a)所示),这反过来又强化了模型的初始信念并放大了其过度信心。不可避免的结果是模型的校准不良,其信心无法反映其真实准确性——这对于可靠部署来说是至关重要的失败[5]。虽然边际熵最小化(MEM)的信心放大特性是一个已知的风险[6],但我们的分析揭示了正是基于信心的选择使得这种行为在TPT中真正有害,因为它系统地为由MEM目标提供了一个贫乏、有偏见的数据流。
尽管像C-TPT [7]和O-TPT [8]这样的先前工作引入了事后正则化器来对抗MEM引起的过度信心,但它们忽视了根本原因:它们的纠正努力从根本上受到已经通过有偏见的选择过程而贫乏的视图集的影响。因此,我们的方法基于一个概念性的转变:鲁棒的TPT应该由视图间语义共识来指导,而不是依赖于单个视图信心这种脆弱的代理。在这里,我们将视图间共识定义为同一测试实例的多个增强视图之间的集体一致,体现在它们一致的语义对齐和预测上,而不是单个信心分数上。为此,我们利用了统计物理学中的自由能分数。通过整合所有logit的信息,能量分数提供了一个比基于softmax的信心更稳定和全面的不确定性度量,后者依赖于单个logit。
这一见解激发了我们提出的框架:基于共识的校准框架,用于测试时提示调优,通过能量锚定(CATE)。CATE通过用两阶段共识机制替换基于信心的过滤来实施我们的范式转变,如图1(b)所示。它首先利用能量分数从所有视图的集体一致中确定一个稳定的锚定类别。然后,这个锚定类别指导构建一个在语义上连贯且在视觉上多样化的适应集。通过有意将适应基于共识而不是信心,CATE的能量引导策略系统地打破了过度信心-冗余困境。结果是一个从根本上更鲁棒的适应过程,在具有挑战性的分布变化下实现了最先进的校准和准确性。
为了明确我们的贡献,表1明确地将CATE与现有策略进行了对比。虽然像C-TPT [7]和O-TPT [8]这样的先前工作主要依赖于目标级别的正则化来隐式地减轻过度信心,但它们没有触及潜在的有偏视图选择机制。相比之下,CATE通过选择级别的改革直接针对问题根源。通过用能量锚定的共识替换不可靠的信心分数,CATE积极构建了一个高质量的适应集,确保优化从一开始就由一致和可靠的信号驱动。
我们的主要贡献有两个方面:
  • 理论洞察:我们发现了TPT中的一个根本性缺陷——“过度信心-冗余困境”——即旨在解决问题的基于信心的选择实际上导致了系统性失败。
  • 方法创新:我们提出了CATE,这是一个新框架,通过用基于能量的共识的新范式替换信心过滤来解决这一困境,以实现鲁棒的视图选择和适应。
  • 本文的其余部分组织如下。第2节回顾了有关提示调优和信心校准的相关文献。第3节提供了TPT的背景,并严格分析了其校准不准确的根本原因——“过度信心-冗余困境”。第4节介绍了我们提出的CATE框架,详细介绍了基于能量的共识选择和共识感知的熵最小化。第5节展示了在细粒度分类和自然分布变化上的广泛实验结果,随后是消融研究。第6节讨论了局限性和未来方向。最后,第7节总结了本文。

    章节片段

    视觉语言模型的提示调优

    提示调优已成为一种广泛使用的方法,用于适应大型视觉语言模型(如CLIP [1]),而无需对模型进行完全微调[9]。早期的工作如CoOp [10]和CoCoOp [11]使用少量标记数据集引入了连续提示学习,从而在下游任务性能上取得了显著改进。最近,TPT [4]被提出用于通过最小化增强视图的边际熵来直接适应未标记的测试样本。虽然有效

    背景:从TPT范式到其校准挑战

    TPT的校准不良是一个根植于基础设计缺陷的系统性问题。在本节中,我们将这一缺陷形式化为“过度信心-冗余困境”,分析了有偏目标与有缺陷的选择策略之间的相互作用如何导致模型不可靠。

    CATE:通过能量锚定实现基于共识的测试时提示调优

    为了解决过度信心-冗余困境,我们提出了CATE,它通过用基于能量的两阶段共识机制替换有缺陷的基于信心的过滤机制,从根本上改革了TPT范式。图4提供了我们框架的概览。

    实验

    我们进行了一系列全面的实验来验证CATE。评估严格评估了其在(1)分布变化下的鲁棒性和校准能力(其核心设计目标),以及(2)在多样化分类基准测试中的泛化能力。还进行了深入的消融研究,以确认CATE的有效性直接来源于我们提出的基于能量的共识和重新加权机制。

    局限性和未来方向

    尽管CATE通过能量锚定改善了校准,但在极端分布变化下仍然容易受到信心错误的影响,在这种情况下,低能量分数可能无法保证正确性。此外,我们的多阶段流程目前将视图选择与适应分开。未来的工作旨在通过制定一个完全可微的分选机制来弥合这一差距,允许共识构建和提示调优的联合优化,以及纳入自适应阈值

    结论

    在这项工作中,我们重新审视了TPT中的校准挑战,并揭示了其对基于softmax信心进行视图选择的依赖所存在的基本局限性。通过理论和实证分析,我们表明基于信心的过滤促进了冗余的适应信号,同时丢弃了结构上多样但信息丰富的视图——最终破坏了校准。为了解决这个问题,我们提出了CATE,这是一种基于共识的测试时校准框架,它将视图选择基于

    CRediT作者贡献声明

    王敏:撰写——原始草稿,撰写——审阅与编辑,方法论,形式分析,软件,可视化,数据整理,资源管理。贾苗:概念化,软件,可视化。杨浩:撰写——原始草稿,可视化。程青:验证,监督。黄金才:验证,监督。

    利益冲突声明

    作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号