基于特征归因解释的主动学习查询选择优化框架：通过专家干预提升标注效率

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年06月04日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　针对传统主动学习(Active Learning)中查询选择过程缺乏可解释性的问题，研究人员提出了一种融合特征归因解释的增强框架。该研究通过分解未标注实例的评估分数为特征贡献值，允许标注者基于先验知识调整特征权重，有效抑制噪声特征干扰，在KEEL数据集模拟中验证了其提升模型性能的优越性。

在人工智能和大数据时代，数据标注成本已成为制约模型性能提升的关键瓶颈。传统主动学习(Active Learning, AL)通过迭代选择最具信息量的样本进行标注，显著降低了标注需求。然而，其查询选择过程如同"黑箱"，标注者既无法理解为何选择特定实例，也难以将领域知识融入决策流程。这种解释性缺失导致两个突出问题：一是标注者可能因不理解选择逻辑而降低标注质量；二是算法可能被无关噪声特征误导，选择非最优样本。

针对这一挑战，韩国国立研究基金会支持的研究团队在《Expert Systems with Applications》发表创新成果。研究者构建了可解释主动学习框架，核心突破在于将SHAP等模型无关解释方法整合到查询选择环节。该框架首先将实例评估分数分解为特征级归因值，随后允许标注者基于专业知识调整特征权重，最终通过加权特征贡献值生成优化后的查询选择决策。

关键技术包括：1) 基于KEEL数据集的20组基准数据模拟；2) 特征归因方法分解获取函数(acquisition function)值；3) 专家权重干预机制设计；4) 噪声特征场景下的性能验证。通过系统对比实验，证实该方法在保持标准AL效率优势的同时，使标注准确率提升12-18%。

研究结果
主动学习
研究首先验证传统AL在噪声特征存在时性能显著下降，当30%特征为随机噪声时，模型AUC下降0.15。

Proposed explainable active learning framework
框架创新性地将特征归因步骤嵌入标准AL流程（图1），通过计算a(x_i;f)=Σ_jw_j·φ_j实现专家干预，其中φ_j为第j个特征SHAP值。

Problem statement
在KEEL数据集测试中，当标注者正确识别50%噪声特征时，框架使模型F1-score提升0.23，显著优于传统不确定性采样策略。

结论与意义
该研究首次实现标注者对AL查询选择的可控干预，突破性地解决了解释性与效率的权衡问题。通过特征权重调节机制，不仅提升噪声环境下的鲁棒性，更开创了"人在环路"智能标注新范式。未来可扩展至医疗影像标注等需要强领域知识的场景，为降低AI落地成本提供新思路。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号