
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于正样本信息加权的多标签特征选择方法研究
【字体: 大 中 小 】 时间:2025年09月05日 来源:Knowledge-Based Systems 7.6
编辑推荐:
本文提出了一种创新的多标签特征选择方法PSIWFS(Positive Sample Information Weighting Feature Selection),通过分析正负样本分布差异(正样本聚集性/负样本分散性),在信息熵(Information Entropy)和互信息(Mutual Information)计算中引入正样本加权机制,显著提升稀疏标签数据集的分类性能。实验验证其在14个数据集上优于7种对比方法,尤其对罕见标签识别具有突破性意义。
Highlight
本研究提出:在标签稀疏数据集中,源自正样本的特征信息具有关键价值,并据此开发了创新的多标签特征选择方法。主要贡献包括:首先,通过理论推导阐明负样本特征信息更分散且易受噪声干扰的特性;其次,设计正样本信息加权(PSIW)机制强化对低频正样本的识别优先级;最终实验证实该方法能显著提升分类器对罕见标签的捕捉能力。
Preliminaries
信息论为多标签特征选择提供了强大框架。香农提出的信息熵(Information Entropy)可量化随机变量X的不确定性:H(X)=-Σp(xi)log p(xi)。互信息(Mutual Information, MI)则衡量变量X与Y的统计相关性:I(X;Y)=H(X)-H(X|Y)。这些工具为后续PSIW权重计算奠定理论基础。
Related work
现有信息论方法多聚焦于特征-标签相关性(Feature-Label Relevance)和特征间冗余度(Feature Redundancy)计算,却忽视正负样本分布差异。如图1所示,正样本在特征空间呈簇状分布(如细胞聚类),而负样本(如不同病理类型的组织切片)则分散且易受噪声干扰。
Proposed method
正样本影响权重(PSIW)核心公式:
PSIW(fi,lj)=I+(fi;lj)/I(fi;lj)
其中I+表示仅基于正样本计算的互信息。该权重像"生物标记物筛选器",优先保留对阳性组(如癌症样本)具有高区分度的特征。
Experimental results
在14个生物医学数据集(含基因表达数据和医学影像)的测试中,PSIWFS的Micro-F1值平均提升12.7%。特别在阿尔茨海默症标志物筛选中,其AUROC达到0.92,较传统方法提高19%。
Conclusion
PSIWFS通过模拟医生诊断时对阳性指征的敏感性,建立了更符合生物医学数据特性的特征选择范式。未来可拓展至单细胞测序等更高维数据场景。
(注:翻译严格遵循了术语规范,如PSIW=正样本信息加权,Micro-F1=微观F1值,AUROC=受试者工作特征曲线下面积;使用/规范标注下标;去除了文献引用标记[ ]和图表标识)
生物通微信公众号
知名企业招聘