多学科视角下可解释人工智能算法理解性评估:基于蘑菇分类任务的用户研究数据集

【字体: 时间:2025年06月14日 来源:Scientific Data 5.8

编辑推荐:

  本研究针对可解释人工智能(XAI)算法在跨学科应用中的理解性难题,由波兰雅盖隆大学团队开展了一项创新性用户研究。研究人员通过极端梯度提升(XGB)模型和SHAP、LIME等解释方法,对39名真菌学专家(DE)、数据科学学生(IT)和人文社科学生(SSH)进行访谈,创建了包含访谈转录、可视化修改建议和主题分析结果的综合数据集。该研究填补了XAI领域缺乏多学科实证评估的空白,为开发个性化解释系统提供了重要基础。

  

在人工智能技术快速发展的今天,黑箱机器学习模型如深度神经网络和梯度提升树已广泛应用于医疗、法律等高风险领域。然而,这些模型的决策过程往往缺乏透明度,引发了关于算法可信度和安全性的重大关切。欧盟《通用数据保护条例》(GDPR)和《人工智能法案》等法规的出台,更是将可解释人工智能(XAI)推向了研究前沿。尽管研究者已开发出SHAP、LIME等多种解释算法,但一个根本性问题仍未解决:这些算法生成的解释是否真的能被人类理解?

这一问题的复杂性在于,不同背景的用户对算法解释的理解能力存在显著差异。现有研究大多依赖研究者的直觉判断,缺乏系统的跨学科实证评估。正如Miller等学者指出的,XAI领域迫切需要融入社会科学视角,开展基于真实用户的研究。然而,相关数据集和评估方法的缺失,严重制约了这一方向的研究进展。

针对这一空白,波兰雅盖隆大学人类中心人工智能实验室与信息管理研究所的Szymon Bobek团队开展了一项开创性研究。研究人员设计了一项多学科用户研究,招募了39名参与者,包括真菌学专家(DE)、数据科学背景学生(IT)和人文社科学生(SSH)。研究采用蘑菇分类这一具体任务,通过极端梯度提升(XGB)模型生成预测,并运用SHAP、LIME、DICE和Anchor等多种XAI技术提供解释。研究过程中,参与者需要完成解释分析、问题解决和可视化修改三项任务,所有访谈均按照"有声思考协议"(TAP)进行录音和转录。

研究团队采用了多项关键技术方法:使用公开的蘑菇数据集(含61,069个样本)训练XGB分类器,达到99.97%的准确率;选取SHAP、LIME等四种代表性XAI算法生成解释;采用MAXQDA软件进行主题分析;通过分层抽样确保参与者多样性(13名DE专家、8名IT学生和18名SSH学生);所有访谈材料均进行匿名化和结构化处理。

研究结果揭示了不同用户群体理解XAI解释的显著差异。在"解释分析"部分,数据科学背景的IT组更擅长解读SHAP和LIME等技术性图表,而真菌学专家DE组则更关注与专业知识的契合度。主题分析显示,IT组常使用"特征重要性"等术语,而SSH组更关注"可信度"和"易读性"等维度。"问题解决"任务中,IT组分类准确率最高,但DE组对预测确定性的评估最为精准。

特别值得注意的是"可视化修改"部分的研究发现。多数SSH参与者建议简化技术术语,增加流程图解;IT组则倾向于保留原始技术细节但优化可视化布局;DE专家普遍要求增加与真菌学知识的交叉验证环节。这些发现为开发用户自适应的XAI系统提供了重要依据。

在讨论部分,研究者强调了该数据集的多重价值。首先,这是首个系统评估跨学科用户XAI理解能力的公开数据集,填补了理论呼吁与实证研究间的鸿沟。其次,数据集支持个性化解释系统的开发,例如基于用户背景动态调整解释详略程度。尤为重要的是,研究揭示了单纯提高算法解释的技术完备性并不等同于改善用户理解,这一发现对XAI研究范式具有重要启示。

该研究发表在《Scientific Data》期刊,不仅提供了完整的研究复现基础,还开辟了多个未来研究方向。数据集可用于训练多模态(文本-图像)对话代理,开发基于认知特征的解释推荐系统,以及探索跨文化背景下的XAI理解差异。正如作者所言,这项工作的真正价值在于"将人类因素重新置于XAI研究的中心位置",为构建真正以人为本的可解释人工智能奠定了基础。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号