CMF:通过基于互补流形的多模型融合进行预测优化
《Information Fusion》:CMF: Prediction Refinement via Complementary Manifold-Based Multi-Model Fusion
【字体:
大
中
小
】
时间:2025年10月02日
来源:Information Fusion 15.5
编辑推荐:
多模型融合方法通过将基模型输出映射到概率流形空间,利用Fisher-Rao距离衡量输出分布相似性,筛选并融合高互补性模型输出,有效消除噪声并提升分类精度。该方法无需修改模型架构或训练策略,适用于单标签多类分类任务,在ImageNet-LT等长尾数据集上达到SOTA性能。
在当前的多模型融合研究中,主流方法大多集中在融合算法的设计上,而往往忽视了在融合前对各个基础模型输出进行过滤或选择。此外,大多数现有的融合方法具有高度的耦合性,这限制了它们在跨场景应用中的灵活性和适应性。因此,一旦融合完成,模型架构往往会变得固定,使得引入新模型或替换旧组件变得困难。为了克服这些局限并实现多样化的单标签图像分类任务(如细粒度识别或长尾分布)中的有效状态-of-the-art(SOTA)突破,本文提出了一种高度通用的多模型互补方法。该方法适用于任何深度学习领域的单标签多类别分类任务,并在多个图像分类基准数据集上取得了全球领先的SOTA性能。它对基础模型的架构、参数设置或训练策略没有任何限制,从而允许直接集成现有的SOTA模型。此外,融合过程是完全解耦的,确保了每个基础模型的独立训练不受影响,并保留了其原始训练范式的固有优势。
随着深度学习技术的不断成熟,许多任务中的单模型性能逐渐接近其极限,导致明显的边界效应和性能瓶颈。为了进一步提升性能,越来越多的研究人员尝试通过“扩大”模型规模来突破这些限制,依赖于极大的参数量来提升模型的性能。例如,ViT-B/16(Vision Transformer,Base model,patch size 16)模型仅包含86M参数,就已在ImageNet-1K数据集上达到了85.43%的准确率,而接近SOTA的ViT-G/14(Vision Transformer,Giant model,patch size 14)模型则包含2000M参数,准确率仅为90.45%。尽管参数数量增加了超过20倍,但准确率的提升幅度却只有5%。此外,这种参数量庞大的模型在当前的现实应用中仍然难以大规模部署。因此,多模型融合逐渐成为一种有前景的方法:通过整合不同基础模型的优势,并利用元模型或基于规则的后处理融合来弥补其弱点,在某些情况下,这种方法成功突破了单模型的性能瓶颈,进一步提升了整体性能。
然而,现有的多模型融合方法通常对数据分布和任务特性表现出高度的敏感性。当训练数据分布与测试数据分布存在显著差异时,元模型在训练集上学习到的权重可能会产生反效果,因为这些权重可能会赋予过度拟合的基础模型过高的重要性,最终导致融合失败(即融合后的性能未能超越最佳基础模型的性能)。此外,由于融合过程缺乏可解释性——性能提升完全依赖于元模型的黑箱聚合,因此同一方法和集成可能在不同场景下产生高度不稳定的性能提升。这不仅阻碍了对这种不一致行为背后原因的探索,也限制了融合方法在现实应用中的实际价值。
此外,模型融合固有的强耦合性显著增加了元模型的训练成本。例如,在长尾数据集中,融合多个经过微调的基础模型可以提高尾类(即样本数量较少的类别)的识别准确率,从而在该特定集成中展现出潜在的互补效应。然而,当这个集成转移到另一个具有显著不同长尾分布的数据集(如车牌字符识别或稀有野生动物识别)时,必须重新训练一个全新的元模型,专门针对该数据集。如果融合失败,这不仅会削弱假设的长尾设置下的集成泛化性,还会使得任何后续的优化尝试成本极高:每一次基础模型的替换或超参数的调整都需要重新训练一个新的元模型。因此,直到实现成功的融合,所需的训练时间和计算成本仍处于有效无界的状态。
针对这些问题,本文提出了一种基于多模型输出融合的后处理方法,其整体框架如图1(a)所示。该方法将基础模型的输出映射到概率流形空间,并通过诸如Fisher-Rao距离等指标测量每个模型输出的有用性。该方法充分挖掘了异构基础模型的个体学习能力,确保了融合模型的分类准确率始终不低于任何原始基础模型的准确率。综上所述,该方法的三个主要优势包括:1. 分类准确率的非递减特性;2. 更好的泛化能力;3. 更强的鲁棒性。
本文提出的后处理方法在多种标准和长尾数据集上实现了SOTA性能,这不仅验证了其有效性,也突显了其在现实部署中的实际价值。该方法通过引入Fisher-Rao距离等指标,能够有效地将基础模型的输出分布重新定位到正确的地面真值点,从而实现有效的模型性能提升。此外,该方法不依赖于任何特定的基础模型架构或训练策略,从而提高了其在不同任务和数据集上的适用性。
在多模型融合领域,近年来的研究进展为模型融合方法提供了新的思路。通过引入Fisher-Rao距离,本文方法能够在不修改现有网络架构或模型参数的前提下,实现有效的融合。此外,该方法还通过一种称为“先验重定位机制”的优化策略,减少了由于交集类别在流形上的分布不均而导致的性能威胁。该机制在降维过程中调整辅助模型的嵌入,以消除交集类别分布不均对融合结果的影响,从而确保后续地面真值点的重定向仅由主模型的嵌入几何关系决定。这样,辅助模型的嵌入不会引入任何对交集类别之外的标签的偏见。
因此,当主模型产生正确的预测时,辅助模型不会带来负面影响;而当主模型预测错误时,辅助模型可以通过基于交集的信息帮助纠正输出。即使纠正失败,这种机制也能确保主模型的原始性能不受影响,从而实现模型性能的近似无损提升。此外,本文方法在图像分类的三个主要挑战中均表现出色,且在多个基准数据集上实现了SOTA结果。详细结果将在实验部分进行展示。
为了评估本文方法的有效性,我们首先在标准的鸟类分类数据集CUB-200-2011上进行了实验。实验结果表明,我们的方法在仅使用72.5M参数的情况下,超越了当前的SOTA性能。例如,通过融合使用HERBS和CAL框架训练的基础模型,我们的方法在CUB-200-2011数据集上取得了94.80%的准确率,而ViT-H/14模型则需要632M参数(几乎是其十倍)。在多个关键指标上,我们的方法均优于所有竞争基准,提供了强有力的实证证据,表明CMF框架能够在不依赖于模型架构或训练范式的情况下,实现近似无损的高性能提升。此外,该方法在面对黑羊样本(即与类别分布显著偏离的罕见样本)等挑战时,仍然表现出良好的泛化能力和鲁棒性。
我们还采用了LIFT框架中提出的轻量级微调策略来训练两个基础模型,并在ImageNet-LT数据集上进行了实验。实验结果显示,我们的方法在仅需10个训练周期的情况下,就实现了比现有竞争方法更优的性能。这不仅突显了LIFT策略的内在效率,也表明了我们方法的强兼容性:CMF框架可以直接继承基础模型架构的优势,并在不损失原有性能的前提下实现进一步的突破。在我们的实验中,模型成功超越了其之前的性能上限。通过在样本级别融合两个模型的输出得分分布,我们观察到在所有三个测试类别(头部、中等和尾部)中均出现了持续且显著的性能提升,整体准确率提升了5.5%,在多个关键指标上创造了新的SOTA记录。这些结果验证了我们方法在面对黑羊实例和长尾分布的双重挑战时的高效性和泛化性。
在Places-LT数据集上,我们进一步验证了本文方法的有效性。表5展示了我们的实验结果,其中我们的方法在测试时间增强(w/ TTE)设置下,仍然比原始SOTA方法保持了一定的性能优势。通过分析两个模型的融合结果,我们得出一个重要结论:用于互补融合的辅助模型必须满足最低的预测准确率阈值。如果模型表现不佳(如我们在实验中观察到的约50%的准确率),这表明其近似一半的top-1预测是错误的。这种低质量的预测会削弱拓扑特征保留和维度缩放不变性等特性,从而降低通过top-k交集捕捉地面真值标签的可靠性。因此,互补融合策略在这些情况下所能实现的性能提升是固有的限制。然而,即使如此,融合模型仍然展示了可衡量的性能提升。虽然整体top-1准确率仅略高于原始LIFT方法的最佳结果,但我们的方法在所有类别层次上均实现了性能的持续提升。鉴于该数据集本身具有显著的长尾分布挑战,我们特别强调了我们的方法在头部和尾部类别中均实现了新的SOTA性能。这些结果为CMF方法的鲁棒性和有效性提供了有力的证据。
在iNaturalist 2018数据集上的实验结果代表了我们方法的又一次成功应用。如表6所示,提出的互补融合方法在该数据集上实现了显著的突破,将top-1准确率从80.84%提升至83.44%,整体提升了2.6%,并设定了新的SOTA基准。该方法在所有类别层次上均实现了性能的提升,特别是在中等频率和尾部类别中,也取得了新的SOTA结果。这一成功结果进一步验证了我们方法的应用性:当两个模型表现出相似的性能水平,且基线准确率已经很高(约80%)时,提出的互补融合策略仍然可以带来显著的性能提升,即使在长尾分布等具有挑战性的条件下。结合其他两个数据集的实证结果,这些发现为我们的方法的有效性提供了坚实而全面的证据。
为了全面探索CMF方法的应用特性,我们在四个不同的数据集上进行了消融实验,以评估两个模型之间的互补性能。我们设计了四种代表性场景:1. CIFAR10:两个模型具有相对较高的且相似的性能(高于90%,低于95%);2. CIFAR100-LT:两个模型之间存在显著的性能差异,且性能均低于80%(约20%的性能差距);3. Stanford Cars:两个模型均达到95%以上的性能;4. CE-RUG和CUB-200-2011:两个模型表现出竞争力,且准确率均高于85%。实验结果表明,在高到低的互补场景中,CMF方法在两个数据集上分别实现了3.2%和3.11%的性能提升。此外,所有三种方法在所有实验设置中均带来了不同程度的性能提升。值得注意的是,在CE-RUG数据集上观察到的突破确认了CMF方法在克服引入中的第三个挑战——即在长尾数据集上稳定可靠地提升整体模型性能——方面的能力。
在三个长尾数据集上的多模型融合实验中,我们使用了三种模型:CLIP的ViT-B/16、ResNet-50和ImageNet-21K预训练的ViT-B/16。如表所示,这三种模型的融合仍然带来了显著的性能提升。然而,由于ResNet-50模型的性能显著弱于其他两个模型(例如,在iNaturalist 2018数据集上,ViT-B/16模型的准确率约为79%,而ResNet-50模型的准确率仅为44%),因此三种模型融合的总体性能变得不稳定。此外,由于这三个模型之间没有表现出强互补性(即一个模型无法持续补偿另一个模型的弱点),第二组结果被排除在外。然而,CMF方法仍然能够提升数据集的总体性能。这表明,当将提出的融合框架扩展到涉及三个或更多模型的场景时,仍然可以期待性能的提升。然而,实际效果仍然取决于参与融合的各个模型之间的相对强度和相似性。
为了确保Fisher-Rao度量的有效性,我们进一步在三个长尾数据集上进行了比较实验,将Fisher-Rao与常用的KL散度进行比较。实验结果显示,仅使用KL散度来捕捉每个模型在流形空间中的地面真值点,随后通过CMF进行互补融合,最终性能与使用Fisher-Rao度量时相同。然而,KL散度的计算开销明显高于Fisher-Rao度量。为了更好地将KL散度应用于基于流形的融合,我们从信息论的角度出发,提出了一种新的度量,称为KL-f。这一新度量在所有三个长尾数据集上均表现出显著的性能提升。在实验中,我们将Top-n参数固定为10,并对10次运行的报告时间结果进行平均。详细的实验结果如表10所示。
特别地,KL-f不再仅仅计算单个模型输出与地面真值点之间的差异,而是引入了两个模型的输出:一个模型的输出与地面真值点之间的匹配信息被作为正则化项,帮助主模型过滤出潜在正确的地面真值点。本质上,KL-f在正式融合阶段之前进行了一种隐式的融合。其具体公式如下:
D(p_l, p_h ∥ T) = ∑ p_l(k) log p_h(k) - ∑ p_h(k) log T(k)
在该公式中,p_l和p_h分别表示两个模型的输出,其中p_l对应于低性能模型,p_h对应于高性能模型。当低性能模型的输出作为正则化项来辅助高性能模型时,也可以实现性能提升。然而,最终结果不如高到低的互补策略。我们将其归因于与之前实验中观察到的相同原因:低性能模型的输出通常包含更多错误信息,这些信息可能会误导高性能模型,即使它们的总体性能水平相近。
然而,我们的实验结果表明,三种度量对融合性能的最终影响基本上是相同的。具体而言,当Top-n参数增加到50或以上时,三种度量的优化性能均收敛于相同的峰值值。这表明,此时融合性能的限制因素不再是度量本身,而是输出映射的球形邻域已经包含了正确的地面真值点,位于前50个候选之中。融合未能将其纠正到Top-1,意味着进一步的性能提升将需要对距离度量进行优化,这构成了我们未来的研究方向。值得一提的是,虽然KL-f度量在Top-n参数较小时相较于其他两种度量带来了更大的性能提升,但它也伴随着更高的融合时间开销。因此,准确率提升与计算成本之间的权衡仍然是一个开放性问题。
最后,为了进一步阐明我们方法所带来的性能提升的原因,我们从iNaturalist 2018实验中选择了大量互补和成功错误纠正的示例进行展示。如图5所示,我们使用条形图来表示两个不同模型对相同样本生成的分类得分分布。红色条形代表样本的真实标签得分,绿色条形表示两个模型互补后,交集之外的标签,蓝色条形代表错误标签。此外,表8中的消融实验结果揭示了,在大多数情况下,高性能模型的top-k分类结果包含真实标签的相关信息,从而帮助低性能模型更好地识别原本被遗漏的真实标签。此外,基于表8中不同数据集的消融实验结果,可以得出一个明显的结论:低性能模型在某些样本上无法生成正确的分类结果,而高性能模型则可以。当这些错误信息被互补到高性能模型时,可能会对高性能模型的性能构成威胁,导致互补准确率介于低和高性能模型之间。这种互补在意义上是无意义的,因此图5中展示的互补方法是高补低的方法。图5清楚地展示了五种不同的样本场景,其中CMF算法被用来纠正模型输出中的错误。我们使用条形图来表示两个不同模型对相同样本生成的分类得分分布。红色条形代表样本的真实标签得分,绿色条形表示两个模型互补后交集之外的标签,蓝色条形代表错误标签。"target"表示样本的真实标签,"complementary"表示两个模型在相应样本下的top-5输出分布。
本文提出的多模型互补融合策略,通过整合基础模型,实现了在多个具有挑战性的数据集上的持续性能突破,展示了其强大的泛化能力。值得注意的是,该方法在三个主要的长尾基准数据集和一个标准的鸟类分类数据集上均实现了显著的性能提升,并取得了SOTA结果,提供了其有效性的有力证据。此外,与传统的多模型融合框架不同,本文方法首先将基础模型的输出映射到统一的概率流形空间。通过基于特定度量的过滤机制,它能够从输出中提取有价值的信息,同时消除噪声成分,从而实现高质量的信息融合,并进一步提升模型性能。我们还强调了该方法的简洁性,并希望它能激发模型分类领域的新的研究方向和进展。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号