结构化数据中深度学习与机器学习的性能比较:回归与分类任务的全面基准研究

【字体: 时间:2025年09月05日 来源:Neurocomputing 6.5

编辑推荐:

  本研究针对深度学习(DL)模型在结构化数据任务中表现不佳的问题,通过111个数据集和20种模型的系统评估,首次揭示了DL在数据量小、高峰态(kurtosis)场景下的优势,并构建了预测准确率达92%的元学习模型,为算法选择提供了科学依据。

  

在人工智能领域,深度学习(DL)在图像识别、自然语言处理等非结构化数据任务中表现卓越,但其在结构化表格数据上的表现却长期存在争议。传统观点认为,梯度提升机(GBM)和随机森林(RF)等机器学习(ML)方法在表格数据处理上更具优势,这种认知导致DL在金融、医疗等结构化数据密集领域的应用受限。然而,这种观点是否在所有场景下成立?是否存在DL优于ML的特定条件?这些问题不仅关乎算法选择的理论基础,更直接影响实际应用中的模型性能。

为解答这些问题,来自巴伊兰大学的Assaf Shmuel团队在《Neurocomputing》发表了突破性研究。他们构建了包含111个数据集(57个回归任务和54个分类任务)的大规模基准测试平台,系统评估了7种DL模型(包括MLP、ResNet、TabNet等)、7种树集成(TE)模型(如XGBoost、CatBoost)和6种传统ML模型的性能。研究创新性地引入元学习技术,首次量化了DL在特定数据特征下的优势场景。

关键技术包括:1) 采用10折交叉验证评估20种模型在RMSE/MAE/R2(回归)和AUC/准确率/F1(分类)等指标的表现;2) 从OpenML和Kaggle获取的84个真实数据集与20个材料科学数据集构成异构测试集;3) 通过逻辑回归和符号回归构建元学习预测器,分析18个数据特征与模型性能的关联。

【模型性能基准】

结果显示TE模型整体占优,CatBoost在17.1%数据集表现最佳。但DL模型在特定场景展现竞争力:AutoGluon-DL在9.9%数据集领先,ResNet在小样本(<1000行)任务中胜率达13.9%。值得注意的是,集成方法AutoGluon(非纯DL)以35%的胜率成为综合最优模型。

【关键特征识别】

通过逻辑回归发现:分类任务(p=0.032)和高峰态数据(p=0.024)显著提升DL优势。热图分析揭示:当特征数>100且样本数<1000时,DL胜率提升30%。符号回归推导出核心公式:logreg(0.005·xkurtosis - 4.3×10-5·xrow_count),量化了数据特征与DL优势的非线性关系。

【小样本分析】

在36个小样本集中,H2O-GBM和ResNet分别以16.6%和13.9%的胜率领先。合成数据实验证实:噪声水平每增加1%,DL相对优势提升10.1%(p<0.001),而数据量扩大则削弱DL优势(p=0.058)。

这项研究颠覆了"DL不适用于表格数据"的传统认知,首次建立了数据特征与算法性能的量化关系。提出的元学习模型(AUC=0.91)可指导实践者在高维小样本、高峰态数据等场景优先选择DL,在医疗小样本诊断、金融高频交易等领域具有重要应用价值。论文还指出未来应研究特征工程对DL性能的影响,为算法创新指明方向。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号