
-
生物通官微
陪你抓住生命科技
跳动的脉搏
综述:众包中工人共谋的检测方法、数据集与挑战
【字体: 大 中 小 】 时间:2025年06月25日 来源:Expert Systems with Applications 7.5
编辑推荐:
这篇综述系统梳理了众包(Crowdsourcing)平台中工人共谋(Collusion)的检测技术,涵盖相似性分析、图模型(Graph-based)和机器学习(ML)等方法,并探讨了真实与合成数据集的挑战。研究强调多模态数据整合和实时自适应系统(Real-time Adaptive Detection)的发展趋势,为提升众包数据可靠性提供了理论框架和实践方向。
众包(Crowdsourcing)通过全球劳动力解决自动化系统难以完成的任务,如图像标注(Image Labeling)、情感分析(Sentiment Analysis)和翻译(Translation)。亚马逊机械土耳其(MTurk)等平台已成为数据收集的核心工具,但工人协作的边界问题日益凸显。
工人共谋(Collusion)包括重复提交(Duplicate Submissions)和复杂垃圾信息网络(Spam Networks),分为三类:
共谋会破坏敏感任务(如医疗数据标注)的可靠性,导致评级系统(Rating System)失真。例如,在视频描述任务中,共谋可能生成重复内容,降低数据多样性。
真实数据集(如MTurk日志)缺乏标注,合成数据(Synthetic Data)通过模拟共谋行为补充评估,但存在泛化性局限。
多模态数据(Multi-modal Data)整合和实时检测系统是趋势,需解决计算效率与动态共谋模式的平衡问题。
当前技术虽能识别部分共谋行为,但跨平台通用性和实时性仍需突破。未来研究应聚焦动态环境下的自适应算法,以构建更可信的众包生态。
生物通微信公众号
知名企业招聘