局部增强多视图判别分析:通过邻域结构保持提升跨视图分类性能

《IEEE Access》:Locally Enhanced Multi-view Discriminant Analysis: Preserving Neighborhood Structure for Improved Cross-View Classification

【字体: 时间:2025年11月21日 来源:IEEE Access 3.6

编辑推荐:

  本文针对多视图判别分析(MvDA)在类别边界相近时识别性能下降的问题,提出了一种局部增强的多视图判别分析(LE-MvDA)方法。该方法通过引入自适应局部缩放因子的监督亲和力矩阵,动态调整邻域密度,在保持类内凝聚性的同时最大化类间间隔。实验结果表明,LE-MvDA在Multi-PIE、ORL和RoboMNIST数据集上分别达到92.8%、91.9%和97.7%的准确率,较现有方法提升3.4%-9.9%,且参数量仅为深度学习模型的1/100,推理速度提升40倍,为资源受限场景提供了高效可解释的解决方案。

  
在当今多源数据爆发的时代,如何让机器从不同视角(如多个摄像头、多种传感器)的数据中准确识别物体或行为,已成为人工智能领域的重要挑战。想象一下,一个安保系统需要从不同角度的监控视频中识别同一个人,或者一个工业机器人要通过多个传感器判断机械臂的精细动作——这些任务都涉及"多视图学习"这一关键技术。传统方法如多视图判别分析(MvDA)通过最大化全局类别分离来实现跨视图识别,但当不同类别的特征在空间中位置相近时(比如区分相似的面部表情或机器人绘制数字"0"和"8"的轨迹),这些方法就会显得力不从心。
这正是Motamedi和Siami在《IEEE Access》上发表的研究要解决的核心问题。他们发现,MvDA等传统方法对数据采取"一视同仁"的处理方式,忽略了局部邻域结构的重要性,导致在类别边界相近的现实场景中性能大幅下降。为此,研究团队提出了一种创新性的解决方案——局部增强的多视图判别分析(LE-MvDA),重新定义了如何在判别子空间中保持局部结构。
LE-MvDA的核心突破在于引入了具有自适应局部缩放因子(σk=‖xk-xk(K)‖)的监督亲和力矩阵。这一设计使得模型能够根据每个样本周围的密度动态调整相似度计算,在数据密集区域使用较小的缩放因子,在稀疏区域使用较大的缩放因子,从而更好地适应不同分布特点的数据。更重要的是,这种亲和力矩阵是"类感知"的——只在同一类别内的样本之间建立连接,既增强了类内凝聚力,又不会损害类间分离度。
为了验证LE-MvDA的有效性,研究团队在三个具有挑战性的数据集上进行了全面实验。在Multi-PIE多视角人脸数据集上,LE-MvDA在13个不同视角的跨视图识别任务中表现出色,特别是在训练视角与测试视角角度差异较大时,其性能显著优于传统MvDA。如图8和图9的热力图对比清晰显示,LE-MvDA在整个非对角线区域(代表跨视图识别)都保持着更温暖的色调,表明其具有更强大的视角不变性识别能力。
在ORL人脸数据集上,研究团队构建了三种不同的特征表示(原始灰度图、FFT频域特征、Canny边缘特征)来模拟多视图场景。结果表明,LE-MvDA在跨特征表示的识别任务中同样表现优异,准确率达到91.9%,比最好的基线方法提升了9.9%。这一结果证明了LE-MvDA在处理异质特征视图时的强大泛化能力。
最令人印象深刻的结果来自RoboMNIST机器人动作识别数据集。该数据集包含机械臂绘制数字0-9的轨迹视频,从三个不同视角捕捉。LE-MvDA在这一任务中达到了97.7%的准确率,比现有最佳方法提高了6.3%。图12展示了LE-MvDA在所有10个动作类别上的稳定优异表现,特别是在容易混淆的类别(如0和8)上仍保持高识别精度。
研究的关键技术方法包括:基于局部缩放高斯核的亲和力矩阵构建、多视图判别分析框架下的统一优化目标 formulation、通过广义特征值问题求解投影矩阵、以及结合k近邻(kNN)分类器的跨视图识别流程。在RoboMNIST数据集上,研究团队使用DeepLabCut姿态估计技术从视频中提取机械臂关键点轨迹作为特征输入。
多视角人脸识别的性能提升
在Multi-PIE数据集上的实验结果表明,LE-MvDA在跨视角人脸识别任务中显著优于传统方法。当训练数据包含除测试视角外的所有视角时,LE-MvDA的平均识别准确率达到92.8%,比MvDA-vc提升3.4%。更重要的是,在视角差异较大的情况下(如-90°训练,+90°测试),LE-MvDA仍能保持较高的识别率,证明其优秀的视角不变性。
多特征表示的跨域泛化能力
ORL数据集上的实验突出了LE-MvDA处理异质特征视图的能力。当训练和测试使用不同特征表示(如训练用FFT特征,测试用Canny边缘特征)时,LE-MvDA的准确率达到89.7%,比最佳基线方法提升6.7%。这表明LE-MvDA学习到的子空间表示能够有效捕捉不同特征背后的本质模式。
机器人动作识别的卓越表现
RoboMNIST数据集上的结果最具说服力,LE-MvDA在三个相机视角的跨视图识别中达到97.7%的准确率。图6直观展示了从不同视角观察到的机械臂轨迹差异,以及LE-MvDA如何在这些差异下仍能准确识别动作类别。特别值得注意的是,在容易混淆的类别(如0和8)上,LE-MvDA凭借其局部结构保持能力,仍能实现高精度区分。
与深度学习模型的对比优势
研究还对比了LE-MvDA与主流深度学习方法的性能。如表10所示,LE-MvDA的准确率(97.7%)与最先进的TimeSformer模型(98.1%)相当,但参数量仅为后者的1/100(3万 vs 300万+),推理速度快40倍(0.04ms vs 1.64ms)。这一对比凸显了LE-MvDA在资源受限场景下的巨大应用价值。
亲和力矩阵的可视化分析
图11展示了三个数据集上LE-MvDA学习到的亲和力矩阵,均呈现出明显的分块对角结构。对角线上的亮黄色块表示同类同视图样本间的高相似度,而深蓝色的非对角线区域则反映了不同类或不同视图样本间的低相似度。这种结构直观验证了LE-MvDA能够有效保持类内紧凑性和类间分离度。
本研究通过系统的理论创新和实验验证,确立了LE-MvDA在多视图学习领域的重要地位。该方法不仅解决了传统MvDA在类别边界相近时的性能瓶颈问题,更在计算效率和可解释性方面提供了显著优势。虽然深度学习在大规模数据场景下仍具有其不可替代的价值,但LE-MvDA为小到中等规模数据集、资源受限环境以及需要高可解释性的应用场景提供了理想的解决方案。这项研究为推动多视图学习在实际应用中的落地提供了重要技术支撑,特别是在机器人视觉、智能监控、生物特征识别等领域具有广阔的应用前景。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号