综述:众包中工人共谋的检测方法、数据集与挑战

【字体: 时间:2025年06月25日 来源:Expert Systems with Applications 7.5

编辑推荐:

  这篇综述系统梳理了众包(Crowdsourcing)平台中工人共谋(Collusion)的检测技术,涵盖相似性分析、图模型(Graph-based)和机器学习(ML)等方法,并探讨了真实与合成数据集的挑战。研究强调多模态数据整合和实时自适应系统(Real-time Adaptive Detection)的发展趋势,为提升众包数据可靠性提供了理论框架和实践方向。

  

众包与任务类型

众包(Crowdsourcing)通过全球劳动力解决自动化系统难以完成的任务,如图像标注(Image Labeling)、情感分析(Sentiment Analysis)和翻译(Translation)。亚马逊机械土耳其(MTurk)等平台已成为数据收集的核心工具,但工人协作的边界问题日益凸显。

共谋行为分类

工人共谋(Collusion)包括重复提交(Duplicate Submissions)和复杂垃圾信息网络(Spam Networks),分为三类:

  1. 简单共谋:直接复制答案;
  2. 协同作弊:多人分工伪造结果;
  3. 评级操纵:通过虚假评分提升任务收益。

共谋的影响

共谋会破坏敏感任务(如医疗数据标注)的可靠性,导致评级系统(Rating System)失真。例如,在视频描述任务中,共谋可能生成重复内容,降低数据多样性。

检测方法

  1. 相似性分析:早期基于文本相似度(如Jaccard系数)的静态阈值检测;
  2. 图模型:构建工人-任务关系图(Worker-Task Graph),识别异常聚类;
  3. 机器学习:采用自适应模型(Adaptive Models)区分共谋与正常协作,如Xu等(2023b)提出的动态阈值算法。

数据集挑战

真实数据集(如MTurk日志)缺乏标注,合成数据(Synthetic Data)通过模拟共谋行为补充评估,但存在泛化性局限。

未来方向

多模态数据(Multi-modal Data)整合和实时检测系统是趋势,需解决计算效率与动态共谋模式的平衡问题。

结论

当前技术虽能识别部分共谋行为,但跨平台通用性和实时性仍需突破。未来研究应聚焦动态环境下的自适应算法,以构建更可信的众包生态。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号