
-
生物通官微
陪你抓住生命科技
跳动的脉搏
针对大规模高维不平衡分类数据的无模型特征筛选方法:基于融合逆概率加权绝对滤波器的技术
《Statistics》:Model-free feature screening for massive high-dimensional imbalanced classification data via a fused inverse probability weighted absolute filter
【字体: 大 中 小 】 时间:2025年10月28日 来源:Statistics 1
编辑推荐:
中文摘要:针对大数据时代不平衡数据特征显著、维度高且类别分布不均的问题,提出了一种模型自由、抗离群值且能检测线性及非线性关联的特征筛选方法,并证明了其在二分类和多分类响应中的确定筛选性质,实验验证了方法的有效性。
在大数据时代,数据不平衡问题日益突出,这体现在许多现代科学领域中,例如在线广告的点击率数据集、欺诈检测以及罕见疾病诊断等。大量不平衡数据通常具有庞大的规模、高维度,并且类别之间的分布不均衡或严重偏斜。为了解决这些问题,我们提出了一种特征筛选方法,用于选择具有不平衡特性的关键变量。我们的方法具有多个优势:它无需依赖模型,对异常值具有鲁棒性,并能够检测协变量与响应变量之间的线性及非线性关系。此外,我们还证明了该方法对于二元和多类别响应变量都具有可靠的筛选效果。仿真和实际应用结果均证实了所提出方法的优越性。