针对双重不完整多视图多标签分类的、具有稀有标签感知能力的区分性特征构建方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Knowledge-Based Systems》：Rare-Label-Aware Discriminative Feature Construction for Double Incomplete Multi-View Multi-Label Classification

【字体：大中小】 时间：2026年02月13日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　多不完全多视图多标签分类中，现有方法过度依赖多视图共识信息，导致稀有标签识别能力下降。本文提出RLAD-net，通过双解码架构分离共享与私有特征，引入分层对比损失增强特征可分性，设计多视图共享特征歧视机制优化特征聚合，并采用稀有标签感知的双流决策融合模块解决长尾分布问题。实验表明该方法在五个常用数据集上表现优异。

赵大伟|何月龙|李宏|高青伟|朱德

教育部智能计算与信号处理重点实验室，安徽大学，合肥，230601，中国

摘要

由于现实世界应用中缺失视图和稀疏标签的普遍性，双不完整多视图多标签分类（DiMvMLC）任务引起了相当大的关注。然而，现有方法过度依赖对多视图共识信息的建模，这掩盖了视图特定的特征，从而影响了稀有标签的识别。为了解决这些问题，本文提出了基于稀有标签感知的判别特征构建网络（RLAD-net）。该方法将共享特征与私有特征分离，构建了一个能够利用多视图共性和特征的协作分类模型。引入了一种层次对比损失函数来增强特征的可区分性：它通过跨视图负样本比较增加两种特征类型之间的差异，同时通过监督标签确保相似样本之间的语义一致性。多视图共享特征判别机制加强了一致信息的聚合，并重新加权私有特征以强调其判别能力。最后，基于稀有标签感知的双流模块在决策层面整合了共享和私有预测，并引入了稀有标签偏差以提高对低频标签的识别能力。与其他方法相比，我们的方法在五个广泛使用的多视图多标签数据集上展示了有竞争力的实验结果。

引言

在现实世界中，一个对象可以使用单一的数据表示形式[1]或单一的特征集[2]、[3]来描述。例如，仅使用RGB图像进行图像分类或仅使用词袋模型进行文本分类代表了独特的表示形式。依赖单一表示形式往往会导致重要信息的丢失[4]。最近的研究[5]、[6]开始从多个角度分析对象。例如，自然场景可以通过结合SIFT[7]（表示局部纹理）、GIST[8]（表示景观结构）和HSV、RGB等颜色空间[9]来描述。这样的多视图表示构建了一个更强大的特征空间，这对于建模复杂的现实世界现象至关重要。此外，准确描述一个对象通常需要分配多个类别标签[10]，这些标签反映了不同分类方案中的多样特征。这些多标签方法缓解了单标签分类中的互斥性假设[11]、[12]、[13]。当从多个视图观察对象并用多个标签进行注释时，问题就转化为多视图多标签分类（MvMLC）[14]、[15]、[16]。这一强大的框架使监督学习更适应复杂的现实世界场景，因此目前受到了密集研究。

当前关于多视图多标签分类（MvMLC）的研究主要集中在如何融合异构视图[17]，同时保持它们与多个标签的关系。根据融合阶段，现有的MvMLC方法大致可以分为特征融合和决策融合策略[15]。特征融合方法首先将所有视图映射到一个共同的表示空间，然后根据多视图特征之间的连接或聚合进行分类。例如，刘等人[18]提出了ELSMML模型，该模型使用降维和流正则化来构建统一的多视图表示。虽然这种方法利用了跨视图的一致性，但它往往过分强调了共享结构，而忽略了视图特定的信息。相比之下，决策融合方法[19]、[20]首先从每个视图获得预测分数，然后在决策层面进行聚合。刘等人[21]使用基于注意力的置信度动态加权每个视图的预测。尽管这种策略更好地利用了每个视图的判别能力，但大多数决策融合方法未能清楚地区分共享特征和视图特定特征。这限制了跨视图的互补性，并在标签和视图层面阻碍了可解释性。

然而，在非理想情况下，样本的视图和标签往往是不完整的，这对多视图多标签学习构成了重大挑战。现有关于双不完整多视图多标签分类（DiMvMLC）的研究主要集中在掩盖缺失视图或在嵌入特征空间中恢复它们。文等人[22]提出了一个基于深度神经网络（DNNs）的模型，并引入了视图标签缺失索引来消除缺失的影响。王等人[23]基于不完整的正样本标签构建了一个实例相似性矩阵，使用相似实例来推断缺失视图。除了这些数据层面的解决方案外，最近的工作将注意力转向了特征学习阶段以处理缺失视图。这些方法并不显式地重建缺失视图，而是专注于即使在某些视图缺失的情况下也学习丰富的、具有判别力的语义信息。例如，刘等人[24]提出了一个带遮罩的双通道框架，使用跨通道对比学习将每个视图分解为共享特征和视图特定特征。私有特征被整合到共享特征中用于分类。这种方法将特征空间分解为共享和私有子空间，以捕获多视图之间的一致性，提高单个视图的判别能力，并减少缺失视图的影响。虽然这些方法对不完整的观测有效，但它们主要关注数据提取和特征对齐。这导致共享表示倾向于偏好频繁出现的标签，而稀有标签的识别仍然大多未得到解决。

多标签数据集通常呈现长尾分布，头部标签占主导地位，尾部标签相对稀少[25]、[26]。如图1所示，Corel5k和Iaprtc12显示出明显的标签不平衡，最常见标签和最少见标签之间的比率分别达到381和114。此外，正尾部标签样本极为稀少，在Corel5k中仅占训练样本的约1/3500，在Iaprtc12中占61/13739。这种稀缺性导致模型偏好频繁出现的标签，削弱了其从尾部标签学习判别特征的能力。许多研究探讨了稀有标签的校准。Menon等人[27]引入了对数几率调整方法，该方法结合了来自先验类别频率的偏差项来调整对数几率。这种方法有效地减轻了由主导类别引起的系统性偏差，并提高了平衡的准确性。这种方法通常将偏差项设置为从先验频率直接计算出的固定值。然而，这种固定偏差的校正强度在不同不平衡程度的数据集上可能过强或过弱。

在双不完整多视图多标签场景中，视图的不完整性和稀有标签的不平衡是内在耦合的挑战。不完整的视图引入了特征表示的不稳定性和不对齐，而长尾标签分布使决策过程偏向于频繁出现的标签。这表明，有效的解决方案应该在学习流程的不同阶段同时解决这两个问题。基于这一设计原则，我们提出了一个分类模型——基于稀有标签感知的判别驱动特征构建网络（RLAD-net）。该模型由四个主要模块组成：双特征提取框架、层次对比损失、判别驱动的共识特征构建和基于稀有标签感知的双流逻辑回归融合，如图2所示。在表示层面，具有层次对比学习的双编码器架构分离了共享特征和视图特定特征，并在不完整视图之间稳定特征学习；判别驱动的共识机制根据跨视图的一致性调整私有特征的权重。在决策层面，基于稀有标签感知的双流逻辑回归融合模块整合了共享和私有预测，以及不平衡感知的偏差，以校准低频标签。这种设计共同增强了对于不完整视图的鲁棒性和在长尾分布下识别稀有标签的能力。总体而言，我们提出的模型具有以下贡献：

1.

我们提出了一种新颖的双解耦、判别驱动的统一特征构建框架。它明确分离了共享特征和视图特定特征，使用共享的判别模块来聚合跨视图的共识。它使用共识信息自适应地重新加权私有特征，以放大一致信号，同时抑制不同视图之间较弱或不一致的不可靠私有线索。

2.

我们提出了一种层次对比学习策略，考虑了样本内跨视图特征的相关性。进一步引入了标签空间结构来指导样本之间共同信息的学习。这有效地区分了两种类型的信息，并促进了样本之间的信息交换，同时保留了共同的多视图结构。

3.

我们开发了一种基于稀有标签感知的双流决策级融合方案。该方法在决策（逻辑回归）层面融合了共享特征和视图特定特征的预测输出。引入了一种基于不平衡率感知的可学习偏差机制，以实现长尾标签分布下的校准决策融合。

本文的其余部分安排如下：第2节回顾了多视图多标签学习和双不完整多视图多标签学习的相关研究；第3节详细介绍了提出的RLAD-net框架，包括双编码器特征提取、层次对比学习、判别驱动的一致特征构建和针对长尾标签的双流决策融合；第4节介绍了实验设置，包括数据集、对比方法、评估指标和主要实验结果，随后是参数敏感性和消融分析；第5节总结了整篇文章，讨论了该方法的局限性，并提出了未来的研究方向。

章节片段

多视图多标签分类

多视图多标签分类（MvMLC）结合了多视图学习和多标签分类，形成了一个具有挑战性的机器学习任务。它通常使用来自多个视图的信息来理解和预测每个样本的完整标签集。张等人[28]提出了一个基于矩阵分解的LSA-MML模型，该模型利用了跨视图互补性来对齐核空间中的嵌入特征，但忽略了标签相关性。与LSA-MML不同，赵等人[29]

问题定义

在本节中，我们如下定义DiMvMLC任务：给定多视图多标签数据

{X^{(v)} \in R^{n \times d_{v}}}_{v = 1}^{m}

X^(v)是第v个视图的特征矩阵，n表示样本总数，d_v表示第v个视图的特征维度，m表示视图总数。每个样本包含m个视图，第v个视图的维度是d_v。我们用

X_{i}^{(v)}

表示第i个样本的第v个视图的特征向量。接下来，让Y?∈?{0, 1}^n?×?c是标签矩阵，其中c是总数

数据集

根据之前的工作[41]、[42]、[43]，我们在五个广泛使用的多视图多标签数据集上评估了我们的模型。这些数据集包括Corel5k、Pascal07、ESPGame、Iaprtc12和Mirflickr¹。所有上述数据集都包含6个视图，并且都与多个标签相关联，因此适合多视图多标签任务[33]。在我们对双不完整多视图多标签数据的实验中，数据集的处理如下：

结论

在本文中，我们分析了现有多视图方法在联合建模共享特征和私有特征方面的不足。为了解决这个问题，我们提出了一种层次对比学习策略。该策略通过引入跨视图负样本来增加共享嵌入和私有嵌入之间的距离。使用监督标签来保持相似样本之间的语义一致性，从而实现共同特征和视图特定信息之间的清晰分离。

CRediT作者贡献声明

赵大伟：写作——审稿与编辑、可视化、方法论、调查、形式分析、概念化。何月龙：写作——原始草稿、软件、项目管理、方法论、数据管理。李宏：写作——审稿与编辑、概念化。高青伟：写作——审稿与编辑、概念化。朱德：监督、概念化。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

本工作部分得到了中国国家自然科学基金（项目编号62406001）、安徽省自然科学基金（项目编号2308085QF224）和中国博士后科学基金（项目编号2023M730009）的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号