最小变动≠最佳清洁效果:在完整性约束下的并行与增量错误检测方法
《Proceedings of the ACM on Management of Data》:Minimum Change≠ Best Cleaning: Parallel and Incremental Error Detection under Integrity Constraints
【字体:
大
中
小
】
时间:2025年11月07日
来源:Proceedings of the ACM on Management of Data
编辑推荐:
数据清洗中基于贝叶斯统计的冲突检测与并行优化研究,提出通过贝叶斯方法识别多属性冲突错误而非最小修改原则,并设计可扩展的并行冲突检测和增量检测策略,实验验证其有效性及效率优势。
摘要
在实际场景中,由于各种因素的影响,错误数据频繁出现,这严重降低了数据质量并阻碍了下游应用程序的正常运行。一种广泛采用的错误检测策略是基于完整性约束来检测冲突,并确定最小的错误数量,从而确保剩余的数据单元满足这些约束。然而,在实际情况下,最小变化原则可能并不适用,因为错误可能会同时发生或以不规则的方式出现。因此,本研究采用贝叶斯统计方法来识别那些违反属性间依赖关系的错误属性值,而不仅仅是依赖最小变化原则。这种方法确保我们不会遗漏多个相互冲突的错误属性值,也不会错误地将正常数据识别为异常值。此外,为了解决基于约束的数据清洗方法中常见的效率问题,我们设计了:1)具有保证并行可扩展性的并行冲突检测和错误判定方法;2)同样具有并行执行能力的高效增量错误检测策略。在多个数据集上进行的实验表明,我们的错误检测方法在效果和效率方面都表现出优越性。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号