
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于特征归因解释的主动学习查询选择优化框架:通过专家干预提升标注效率
【字体: 大 中 小 】 时间:2025年06月04日 来源:Expert Systems with Applications 7.5
编辑推荐:
针对传统主动学习(Active Learning)中查询选择过程缺乏可解释性的问题,研究人员提出了一种融合特征归因解释的增强框架。该研究通过分解未标注实例的评估分数为特征贡献值,允许标注者基于先验知识调整特征权重,有效抑制噪声特征干扰,在KEEL数据集模拟中验证了其提升模型性能的优越性。
在人工智能和大数据时代,数据标注成本已成为制约模型性能提升的关键瓶颈。传统主动学习(Active Learning, AL)通过迭代选择最具信息量的样本进行标注,显著降低了标注需求。然而,其查询选择过程如同"黑箱",标注者既无法理解为何选择特定实例,也难以将领域知识融入决策流程。这种解释性缺失导致两个突出问题:一是标注者可能因不理解选择逻辑而降低标注质量;二是算法可能被无关噪声特征误导,选择非最优样本。
针对这一挑战,韩国国立研究基金会支持的研究团队在《Expert Systems with Applications》发表创新成果。研究者构建了可解释主动学习框架,核心突破在于将SHAP等模型无关解释方法整合到查询选择环节。该框架首先将实例评估分数分解为特征级归因值,随后允许标注者基于专业知识调整特征权重,最终通过加权特征贡献值生成优化后的查询选择决策。
关键技术包括:1) 基于KEEL数据集的20组基准数据模拟;2) 特征归因方法分解获取函数(acquisition function)值;3) 专家权重干预机制设计;4) 噪声特征场景下的性能验证。通过系统对比实验,证实该方法在保持标准AL效率优势的同时,使标注准确率提升12-18%。
研究结果
主动学习
研究首先验证传统AL在噪声特征存在时性能显著下降,当30%特征为随机噪声时,模型AUC下降0.15。
Proposed explainable active learning framework
框架创新性地将特征归因步骤嵌入标准AL流程(图1),通过计算a(xi;f)=Σjwj·φj实现专家干预,其中φj为第j个特征SHAP值。
Problem statement
在KEEL数据集测试中,当标注者正确识别50%噪声特征时,框架使模型F1-score提升0.23,显著优于传统不确定性采样策略。
结论与意义
该研究首次实现标注者对AL查询选择的可控干预,突破性地解决了解释性与效率的权衡问题。通过特征权重调节机制,不仅提升噪声环境下的鲁棒性,更开创了"人在环路"智能标注新范式。未来可扩展至医疗影像标注等需要强领域知识的场景,为降低AI落地成本提供新思路。
生物通微信公众号
知名企业招聘