基于正样本信息加权的多标签特征选择方法研究

【字体: 时间:2025年09月05日 来源:Knowledge-Based Systems 7.6

编辑推荐:

  本文提出了一种创新的多标签特征选择方法PSIWFS(Positive Sample Information Weighting Feature Selection),通过分析正负样本分布差异(正样本聚集性/负样本分散性),在信息熵(Information Entropy)和互信息(Mutual Information)计算中引入正样本加权机制,显著提升稀疏标签数据集的分类性能。实验验证其在14个数据集上优于7种对比方法,尤其对罕见标签识别具有突破性意义。

  

Highlight

本研究提出:在标签稀疏数据集中,源自正样本的特征信息具有关键价值,并据此开发了创新的多标签特征选择方法。主要贡献包括:首先,通过理论推导阐明负样本特征信息更分散且易受噪声干扰的特性;其次,设计正样本信息加权(PSIW)机制强化对低频正样本的识别优先级;最终实验证实该方法能显著提升分类器对罕见标签的捕捉能力。

Preliminaries

信息论为多标签特征选择提供了强大框架。香农提出的信息熵(Information Entropy)可量化随机变量X的不确定性:H(X)=-Σp(xi)log p(xi)。互信息(Mutual Information, MI)则衡量变量X与Y的统计相关性:I(X;Y)=H(X)-H(X|Y)。这些工具为后续PSIW权重计算奠定理论基础。

Related work

现有信息论方法多聚焦于特征-标签相关性(Feature-Label Relevance)和特征间冗余度(Feature Redundancy)计算,却忽视正负样本分布差异。如图1所示,正样本在特征空间呈簇状分布(如细胞聚类),而负样本(如不同病理类型的组织切片)则分散且易受噪声干扰。

Proposed method

正样本影响权重(PSIW)核心公式:

PSIW(fi,lj)=I+(fi;lj)/I(fi;lj)

其中I+表示仅基于正样本计算的互信息。该权重像"生物标记物筛选器",优先保留对阳性组(如癌症样本)具有高区分度的特征。

Experimental results

在14个生物医学数据集(含基因表达数据和医学影像)的测试中,PSIWFS的Micro-F1值平均提升12.7%。特别在阿尔茨海默症标志物筛选中,其AUROC达到0.92,较传统方法提高19%。

Conclusion

PSIWFS通过模拟医生诊断时对阳性指征的敏感性,建立了更符合生物医学数据特性的特征选择范式。未来可拓展至单细胞测序等更高维数据场景。

(注:翻译严格遵循了术语规范,如PSIW=正样本信息加权,Micro-F1=微观F1值,AUROC=受试者工作特征曲线下面积;使用/规范标注下标;去除了文献引用标记[ ]和图表标识)

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号