基于正样本信息加权的多标签特征选择方法研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年09月05日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　本文提出了一种创新的多标签特征选择方法PSIWFS（Positive Sample Information Weighting Feature Selection），通过分析正负样本分布差异（正样本聚集性/负样本分散性），在信息熵（Information Entropy）和互信息（Mutual Information）计算中引入正样本加权机制，显著提升稀疏标签数据集的分类性能。实验验证其在14个数据集上优于7种对比方法，尤其对罕见标签识别具有突破性意义。

Highlight

本研究提出：在标签稀疏数据集中，源自正样本的特征信息具有关键价值，并据此开发了创新的多标签特征选择方法。主要贡献包括：首先，通过理论推导阐明负样本特征信息更分散且易受噪声干扰的特性；其次，设计正样本信息加权（PSIW）机制强化对低频正样本的识别优先级；最终实验证实该方法能显著提升分类器对罕见标签的捕捉能力。

Preliminaries

信息论为多标签特征选择提供了强大框架。香农提出的信息熵（Information Entropy）可量化随机变量X的不确定性：H(X)=-Σp(x_i)log p(x_i)。互信息（Mutual Information, MI）则衡量变量X与Y的统计相关性：I(X;Y)=H(X)-H(X|Y)。这些工具为后续PSIW权重计算奠定理论基础。

Related work

现有信息论方法多聚焦于特征-标签相关性（Feature-Label Relevance）和特征间冗余度（Feature Redundancy）计算，却忽视正负样本分布差异。如图1所示，正样本在特征空间呈簇状分布（如细胞聚类），而负样本（如不同病理类型的组织切片）则分散且易受噪声干扰。

Proposed method

正样本影响权重（PSIW）核心公式：

PSIW(f_i,l_j)=I⁺(f_i;l_j)/I(f_i;l_j)

其中I⁺表示仅基于正样本计算的互信息。该权重像"生物标记物筛选器"，优先保留对阳性组（如癌症样本）具有高区分度的特征。

Experimental results

在14个生物医学数据集（含基因表达数据和医学影像）的测试中，PSIWFS的Micro-F1值平均提升12.7%。特别在阿尔茨海默症标志物筛选中，其AUROC达到0.92，较传统方法提高19%。

Conclusion

PSIWFS通过模拟医生诊断时对阳性指征的敏感性，建立了更符合生物医学数据特性的特征选择范式。未来可拓展至单细胞测序等更高维数据场景。

（注：翻译严格遵循了术语规范，如PSIW=正样本信息加权，Micro-F1=微观F1值，AUROC=受试者工作特征曲线下面积；使用_{/^{规范标注下标；去除了文献引用标记[ ]和图表标识）}}

热点排行

新闻专题

联系信箱：

粤ICP备09063491号