OpenL2D框架与FiFAR数据集:构建人机协作决策中学习延迟的基准测试新范式

【字体: 时间:2025年04月24日 来源:Scientific Data 5.8

编辑推荐:

  本研究针对人机协作决策(HAIC)中专家预测数据获取成本高、现有基准测试过于简化的问题,开发了OpenL2D框架,可生成具有可调决策过程和工作容量约束的合成专家。基于公开的欺诈检测数据集创建了FiFAR数据集,包含50名分析师对3万例实例的预测。研究表明,FiFAR的合成专家在一致性和专家间协议等指标上与真实专家相似,且L2D算法性能排名受专家组成显著影响,为人机协作研究提供了更真实的测试环境。

  

在金融欺诈检测、医疗诊断等高风险决策场景中,如何有效整合人类专家与人工智能的优势一直是研究热点。当前主流方法是学习延迟(L2D)算法,其核心思想是将任务智能分配给更可能准确的人类专家或AI模型。然而,这类系统的训练和评估面临严峻挑战:获取专家预测数据成本高昂,导致现有基准测试多采用仅依赖类别标签的简化模拟专家,无法反映真实场景中人类决策的复杂性。

针对这一瓶颈,Feedzai等机构的研究团队开发了OpenL2D开源框架,并基于银行账户欺诈数据集创建了FiFAR(金融欺诈警报审查数据集)。该框架创新性地采用实例依赖噪声(IDN)方法生成合成专家,通过调节特征权重、保护属性偏差等参数,模拟出具有不同决策风格、工作容量限制的专家团队。FiFAR包含50名合成欺诈分析师对3万条警报的预测数据,其专家表现出与真实人类相似的行为特征:适度的组内一致性(Cohen's κ≈0.6)、专家间协议差异(κ∈[0.06,0.79]),以及对模型评分的依赖性(权重wM~N(0.7,0.3))。研究还揭示了关键发现:当测试不同专家子集时,L2D算法性能排名会发生显著变化,说明基准测试必须考虑专家行为的多样性。该成果发表于《Scientific Data》,为人机协作研究提供了首个包含复杂专家行为的公开基准数据集。

关键技术方法包括:1)基于LightGBM构建警报模型,优化阈值使验证集FPR=5%时召回率达57.9%;2)采用改进的"尖板分布"(spike-and-slab)生成特征权重向量,实现专家决策过程的差异化;3)通过二分法精确求解β01参数,控制专家FPR/FNR分布;4)设计25种训练场景模拟现实中的数据稀疏性,每个实例仅保留单专家预测;5)开发容量感知的L2D评估流程,测试5组专家团队在均匀/可变工作负载下的表现。

研究结果部分揭示多项重要发现:
背景与摘要:现有L2D研究受限于NIH临床中心X射线数据集(仅3名放射科医生标注)和CIFAR-10H(最大标注重叠200例)等小规模数据,而模拟专家多采用类别依赖噪声,无法体现特征级决策差异。

方法:OpenL2D框架通过σ(β+α(w·xi+wMM(xi))/‖w‖)函数生成专家错误概率,其中α控制决策一致性(μα=15时κ≈0.6),wp调节对年龄等保护属性的偏差程度。

数据记录:FiFAR包含原始BAF数据集(100万条账户申请记录)、处理后数据(含模型评分)、专家预测表(50专家×3万例),以及25种容量约束训练场景和5组测试场景。

技术验证:合成专家展现出与真实人类相似的特征:1)组内一致性分布(κ∈[0.4,0.85])匹配心脏病专家报告;2)对老年客户的系统性偏差(PE=1.5倍错误拒绝率)反映招聘歧视研究;3)特征依赖性分析显示模型评分权重(0.7±0.3)与真实欺诈分析师行为吻合。

L2D基准测试:在λ=cFP/cFN=0.057的成本结构下,DeCCaF方法比随机分配降低15%误分类成本,但性能优势随专家团队变化(在team_3最优,team_2则与OvA无显著差异)。

结论与讨论部分强调,这是首个整合工作容量约束与复杂专家行为的L2D基准框架,其价值体现在三方面:1)技术层面,IDN方法比传统类别噪声更真实地模拟人类决策;2)应用层面,FiFAR支持算法在欺诈检测等场景的鲁棒性测试;3)社会层面,通过暴露专家偏见(如对老年客户PE=1.5),促进公平性研究。局限性在于目前仅支持二分类任务,且专家参数调优需要领域知识。未来工作将扩展至多分类场景,并探索合成专家在主动学习中的应用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号