DAFS：一种基于分布特征的分层特征选择方法，适用于长尾分类问题

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition》：DAFS: A Distribution-aware Hierarchical Feature Selection Method for Long-tailed Classification

【字体：大中小】 时间：2026年02月08日 来源：Pattern Recognition 7.6

编辑推荐：

　　长尾数据特征选择需平衡头尾类分布并区分易混淆类。本文提出DAFS方法，通过样本分布惩罚系数调整特征权重，结合多粒度知识设计特征区分正则化项，有效提升长尾类分类准确率和易混淆类可区分性。实验表明DAFS优于十种传统方法。

杨张|石杰|刘彦芳|赵宏

福建闽南师范大学计算机科学学院，中国漳州363000

摘要

由于现实世界数据中的高维特征和不平衡分布，长尾数据的特征选择已成为一个研究热点。尽管一些方法可以有效平衡数据，但在长尾数据中正确分类尾部类别和区分容易混淆的类别仍然是两个重大挑战。为了解决这些问题，我们提出了一种基于分布的层次化特征选择方法（DAFS）用于长尾分类。首先，我们将基于样本分布的惩罚系数嵌入到损失函数和正则化项中，以平衡头部和尾部类别的特征权重，从而提高尾部类别的分类准确性。然后，我们利用多粒度知识和类别间的相似性来设计特征区分正则化项，以提高容易混淆类别的可区分性。最后，广泛的实验结果表明，DAFS在不同数据集上的性能优于其他十种传统和先进的特征选择方法。

引言

由于应用范围的不断扩大，数据通常表现出高维特征和众多类别[1]。高维特征使得计算和存储变得复杂，给传统分类带来了挑战。传统的特征选择方法旨在消除冗余和不相关的特征，以解决高维问题并提高分类性能。

类别数量的增加导致了长尾分布和容易混淆的类别，这对传统特征选择提出了挑战。长尾分布是一种不平衡的情况，其中少数头部类别包含大量样本，而大多数尾部类别的样本数量显著较少。传统的特征选择方法往往优先考虑对头部类别分类有帮助的特征，而忽视了通常更为关键的尾部类别。容易混淆的类别指的是那些外观相似的类别，这使得根据它们的共有特征进行区分变得困难。例如，狼和狗具有很高的相似性，导致频繁的误分类。

现有的解决不平衡问题的特征选择方法大致可以分为数据级和算法级方法[2]。数据级方法包括过采样[3]、欠采样[4]和混合采样技术[5]，这些方法通过调整尾部或头部类别的样本数量来平衡数据集。一种常见的算法级方法涉及使用正则化项进行优化。例如，卢等人[6]提出了一种迭代优化的特征选择方法，以应对高维性和不平衡数据的挑战。杜等人[7]在大数据边际框架内构建了一个损失函数，结合了样本权重来减轻类别不平衡。虽然这些方法提高了少数类别的重要性，但它们为所有类别选择了一个单一的共享特征子集，这可能降低大规模分类任务的可解释性。

最近，层次化特征选择方法因其能够利用多粒度知识将大规模任务分解为子任务，并为每个子任务识别具有区分性的特征而受到广泛关注。多粒度知识表示了一种层次化的类别结构，如树或有向无环图。基于树结构，赵等人[8]提出了一种利用类别的父子关系的迭代优化层次化特征选择方法。基于图结构，林等人[9]引入了一种基于图结构数据中标签相关性的层次化特征选择方法。随后，逐渐提出了探索不同类别之间关系的方法。例如，刘等人[10]提出了一种基于树结构中的距离和类别样本相似性来测量类别之间相似性的层次化特征选择方法。这些方法表明，由多粒度知识引导的特征选择可以为大规模分类识别出优秀且紧凑的特征子集。然而，现有的层次化特征选择方法忽略了样本分布，因此不适合长尾数据。此外，它们缺乏有效策略来处理难以区分的容易混淆的类别。

在本文中，我们提出了一种基于多粒度知识的长尾数据分布感知层次化特征选择方法（DAFS）。具体来说，我们首先将基于样本分布的惩罚系数嵌入到损失函数和正则化项中，以调整头部和尾部类别的特征权重。这种基于分布的权重调整增加了有助于正确分类尾部类别的特征的权重，最小化了尾部类别的误分类。然后，我们引入了一个考虑多粒度特征并利用类别间相似性的特征区分正则化项，提高了容易混淆类别的可区分性。我们的方法为大规模不平衡数据识别出最佳的特征子集，可以应用于长尾分类，以提高尾部类别的分类准确性并缓解容易混淆类别被误分类的问题。

本文的主要贡献如下：（1）从样本的角度来看，我们结合了基于分布的惩罚系数来调整特征权重。这种策略在平衡头部和尾部类别特征重要性的同时，降低了尾部类别误分类的风险，从而提高了尾部类别的分类准确性。（2）从类别的角度来看，我们利用多粒度结构信息来分解复杂的分类任务，并通过利用类别相似性来增强容易混淆类别之间的特征区分性。（3）在各种长尾数据集上的广泛实验表明，DAFS的性能优于十种传统和先进的方法。

本文的其余部分组织如下：第2节回顾相关工作。第3节详细介绍了所提出的框架及其优化过程。第4节概述了实验设置，第5节展示了实验结果和分析。最后，第6节总结了研究并讨论了未来的研究方向。

提出的方法

在本节中，我们将详细阐述基于多粒度知识的长尾数据分布感知特征选择框架（DAFS）。

实验设置

在本节中，我们将介绍实验设置的详细信息，包括以下四个方面：（1）数据集描述，（2）比较方法，（3）评估指标，（4）实现细节。

实验结果与分析

在本节中，我们设计了实验来验证DAFS方法在六个方面的有效性：（1）与其他方法的有效性比较；（2）局部分类准确性比较；（3）可视化；（4）消融分析；（5）特征区分正则化器的有效性分析；（6）收敛性分析。

结论与未来工作

我们提出了一种用于长尾分类的分布感知层次化特征选择方法（DAFS）。我们将样本分布信息和类别间相似性整合到了损失函数和正则化项中。这种方法有效地解决了长尾数据中的类别不平衡和区分容易混淆类别的挑战。具体来说，我们引入了一个基于分布的惩罚系数来加权损失，并将其纳入正则化过程中。

CRediT作者贡献声明

杨张：撰写 – 审稿与编辑，撰写 – 原稿，方法论。石杰：指导，撰写 – 审稿与编辑。刘彦芳：指导，撰写 – 审稿与编辑。赵宏：撰写 – 审稿与编辑，指导。

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。

致谢

本工作得到了中国国家自然科学基金（项目编号62376114）和福建省自然科学基金（项目编号2021J011003和2023J01979）的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号