
-
生物通官微
陪你抓住生命科技
跳动的脉搏
面向海量样本数据集的三阶段启发式特征选择算法TPFS:压缩优化与动态分类器协同的突破性解决方案
【字体: 大 中 小 】 时间:2025年07月09日 来源:Pattern Recognition 7.5
编辑推荐:
针对大规模样本数据集在内存受限系统中的特征选择难题,Haoran Su团队提出三阶段启发式算法TPFS。通过邻域压缩降低样本规模,超图初始化建模高阶特征关系,鲸鱼优化结合双模态和动态三元分类器系统,显著提升特征子集质量。实验证明TPFS在7种对比算法中性能最优,为大数据特征工程提供新范式。
在机器学习领域,特征选择(Feature Selection)如同沙里淘金的过程,其目标是从海量特征中筛选出最具价值的子集。然而随着大数据时代的到来,研究者们面临一个尴尬的困境:当样本规模膨胀到百万级甚至更大时,传统算法要么因内存溢出而崩溃,要么在计算泥潭中寸步难行。更棘手的是,现有方法如过滤法(Filter)需要构建庞大的关联矩阵,封装法(Wrapper)要反复训练模型,嵌入式方法(Embedded)又受限于特定假设——这些都在样本激增时暴露致命缺陷。
面对这一挑战,福建师范大学的研究人员Haoran Su和Jinkun Chen在《Pattern Recognition》发表创新成果。他们开发的TPFS算法如同精密的"三阶火箭":首先通过邻域压缩(Neighborhood Compression)将原始数据压缩至原体积的1/10,保留最具代表性的样本;接着用超图(Hypergraph)建模特征间复杂的高阶关系,替代传统随机初始化;最后引入改进的鲸鱼优化算法(WOA),创新性地整合双模态设计和动态三元分类器系统(CART/SVM/KNN),使算法能自适应聚焦于性能最弱的分类器进行优化。这种阶梯式设计不仅突破内存限制,更在特征选择质量上实现跃升。
关键技术包括:1)基于类质心的自适应邻域压缩技术;2)超图顶点覆盖问题求解的初始化方法;3)融合动态概率的三元分类器评估体系。实验选取12个真实数据集,样本规模从5万到200万不等,与7种前沿算法对比。
【研究结果】
研究结论揭示,TPFS的创新价值不仅在于技术层面的三重优化,更开创性地将数据压缩与特征选择深度融合。其模块化设计使得邻域压缩可独立应用于其他算法,而动态分类器机制为进化算法提供了新的优化范式。该成果对医疗影像分析、金融风控等需要处理海量样本的领域具有重要实践意义,为大数据时代的特征工程提供了内存友好型解决方案。讨论部分特别指出,未来可将TPFS框架扩展至分布式环境,并探索压缩率与模型性能的量化关系。
生物通微信公众号
知名企业招聘