
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于超区间粒标记与局部混合邻域熵的半监督特征选择方法研究及其应用价值分析
【字体: 大 中 小 】 时间:2025年09月23日 来源:Neurocomputing 6.5
编辑推荐:
本文提出一种针对部分标记数据的半监督特征选择新方法,通过自适应局部密度峰值超区间粒化(IGANN)技术实现未标记样本的标签预测,结合局部邻域依赖度与全局条件邻域熵构建混合评价指标(LMNE),有效克服传统方法中离散化信息丢失、标记误差传播及未标记数据利用率低等局限性。
亮点
本文针对部分标记数据中存在特征缺失与标记不完整的挑战,提出创新性解决方案:通过改进的超区间粒化技术实现高效标签恢复,并融合代数视角的局部依赖度与信息论视角的全局熵构建混合评价准则,显著提升特征选择精度。
改进的基于自适应局部密度峰值的超区间粒化与标签恢复算法
本节重点解决传统超区间粒化算法的局限性,提出基于自适应截断距离与局部相对距离的密度峰值选择方法。通过将海量数据转化为代表性信息粒,在粒化基础上训练预测模型完成未标记实例的标签推断,最终生成完整标记数据集。
基于局部混合邻域熵的半监督特征选择
基于算法1的框架,提出融合代数与信息论双视角的特征选择算法。定义局部混合邻域熵(LMNE)如下:
定义13
给定部分标记决策系统PDS=(U=Ul∪Uu, A=C∪D, V, f),对于?B?C,决策D关于B的局部混合邻域熵定义为:
LMNE(D,B) = [1 + LH(D|B)] / [1 + log2(1 + γ(D,B))]
该指标综合了基于部分标记数据的局部代数依赖度与基于完整标记数据的全局信息论熵。
实验验证
从UCI机器学习库选取13个数据集进行实验。对不含缺失值的数据集随机设置5%数值特征缺失,完成数值特征归一化与分类特征数值化适配。通过对比实验证明所提方法在特征选择精度与效率上的优越性。
结论
本文通过结合密度峰值与超区间粒化技术,有效提升未标记数据决策特征的标注质量,改进传统密度峰值聚类在峰值选择中的不确定性,同时通过混合局部与全局评价指标降低标签预测误差对特征选择结果的负面影响。
生物通微信公众号
知名企业招聘