Saga++:一个用于优化机器学习应用程序数据清洗流程的可扩展框架

《ACM Transactions on Database Systems》:Saga++: A Scalable Framework for Optimizing Data Cleaning Pipelines for Machine Learning Applications

【字体: 时间:2025年11月08日 来源:ACM Transactions on Database Systems

编辑推荐:

  数据科学生命周期中,数据清理仍面临手动、费时和低效的挑战。本文提出Saga++框架,通过自动生成Top-K有效数据清理管道,结合AutoML、特征选择和超参数优化技术,支持用户约束扩展和新清理方法集成,自动规划混合本地与分布式计算方案,并利用引导采样缩小搜索空间。实验证明其显著提升模型准确性和处理规模。

  

摘要

在探索性数据科学的生命周期中,数据科学家通常花费大量时间寻找、整合、验证和清洗相关数据集。尽管最近在数据验证以及错误检测和纠正算法方面取得了进展,但在实践中,机器学习(ML)的数据清洗仍然主要依赖于手动、繁琐且劳动密集型的试错过程,尤其是在大规模、分布式计算环境中。然而,目标ML应用(如分类或回归模型)可以提供有价值的反馈,帮助选择有效的数据清洗策略。在本文中,我们介绍了Saga++,这是一个用于自动生成K个最有效数据清洗流程的框架。Saga++借鉴了自动机器学习(Auto-ML)、特征选择和超参数调优的思想。我们的框架可扩展,以适应用户提供的约束条件、新的数据清洗操作以及不同的ML应用;能够自动生成本地和分布式操作的混合运行时计划;并通过某些有趣的属性(例如单调性)来进行流程优化。此外,我们还利用对输入数据集的引导采样,在较小的子集上进行枚举,从而减少发现K个最佳流程所需的时间。作为后处理步骤,我们还会对选定的K个最佳流程进行优化,去除冗余和效果较差的清洗操作。虽然完全自动化并不现实,但Saga++简化了数据清洗的机械性操作。实验表明,与现有技术相比,Saga++在准确性方面有显著提升,并且具有良好的可扩展性,能够应对数据量增加和评估流程数量增多的情况。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号