基于特征归因解释的主动学习查询选择优化框架:通过专家干预提升标注效率

【字体: 时间:2025年06月04日 来源:Expert Systems with Applications 7.5

编辑推荐:

  针对传统主动学习(Active Learning)中查询选择过程缺乏可解释性的问题,研究人员提出了一种融合特征归因解释的增强框架。该研究通过分解未标注实例的评估分数为特征贡献值,允许标注者基于先验知识调整特征权重,有效抑制噪声特征干扰,在KEEL数据集模拟中验证了其提升模型性能的优越性。

  

在人工智能和大数据时代,数据标注成本已成为制约模型性能提升的关键瓶颈。传统主动学习(Active Learning, AL)通过迭代选择最具信息量的样本进行标注,显著降低了标注需求。然而,其查询选择过程如同"黑箱",标注者既无法理解为何选择特定实例,也难以将领域知识融入决策流程。这种解释性缺失导致两个突出问题:一是标注者可能因不理解选择逻辑而降低标注质量;二是算法可能被无关噪声特征误导,选择非最优样本。

针对这一挑战,韩国国立研究基金会支持的研究团队在《Expert Systems with Applications》发表创新成果。研究者构建了可解释主动学习框架,核心突破在于将SHAP等模型无关解释方法整合到查询选择环节。该框架首先将实例评估分数分解为特征级归因值,随后允许标注者基于专业知识调整特征权重,最终通过加权特征贡献值生成优化后的查询选择决策。

关键技术包括:1) 基于KEEL数据集的20组基准数据模拟;2) 特征归因方法分解获取函数(acquisition function)值;3) 专家权重干预机制设计;4) 噪声特征场景下的性能验证。通过系统对比实验,证实该方法在保持标准AL效率优势的同时,使标注准确率提升12-18%。

研究结果
主动学习
研究首先验证传统AL在噪声特征存在时性能显著下降,当30%特征为随机噪声时,模型AUC下降0.15。

Proposed explainable active learning framework
框架创新性地将特征归因步骤嵌入标准AL流程(图1),通过计算a(xi;f)=Σjwj·φj实现专家干预,其中φj为第j个特征SHAP值。

Problem statement
在KEEL数据集测试中,当标注者正确识别50%噪声特征时,框架使模型F1-score提升0.23,显著优于传统不确定性采样策略。

结论与意义
该研究首次实现标注者对AL查询选择的可控干预,突破性地解决了解释性与效率的权衡问题。通过特征权重调节机制,不仅提升噪声环境下的鲁棒性,更开创了"人在环路"智能标注新范式。未来可扩展至医疗影像标注等需要强领域知识的场景,为降低AI落地成本提供新思路。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号