编辑推荐:
在机器学习(ML)广泛应用的当下,可解释人工智能(XAI)对模型决策的验证和信任至关重要。研究人员开展了基于扰动的解释(PeBEx)方法的研究,对比 LIME 和 SHAP。结果显示 PeBEx 效率更高,适合对响应时间要求高的场景,推动了 XAI 计算方面的研究。
如今,人工智能(AI)已深度融入日常生活,从互联网产品推荐到贷款申请,都有它的身影。在科学技术的众多领域,AI 也发挥着核心作用。然而,许多 AI 模型存在缺乏可解释性的问题,犹如一个个 “黑匣子”。这一特性引发了诸多担忧,比如可能导致偏见延续、做出不合理决策,还会让用户和利益相关者对其运作方式感到困惑。在医疗和金融等关键领域,这种 “黑箱” 特性的风险尤为突出。例如在医疗领域,医生依靠 AI 模型进行疾病诊断时,如果无法理解模型的决策依据,就难以对诊断结果建立信任,可能影响患者的治疗。在金融领域,贷款审批等决策若由难以解释的 AI 模型主导,可能引发公平性争议。因此,让 AI 模型的决策过程透明化、可解释,成为了当下亟待解决的重要问题。
为了攻克这一难题,研究人员展开了深入研究。他们聚焦于开发一种新的方法,旨在提升模型解释的效率和质量,使 AI 模型在实际应用中更加可靠、可信。最终,研究成果发表在《Engineering Applications of Artificial Intelligence》上。
研究人员在这项研究中采用了多种关键技术方法。他们使用了合成数据集和公共数据集,如心脏疾病数据集、德国信用数据数据集等。对于模型训练,运用了包括逻辑回归(LR)、支持向量机(SVM)等在内的八种二元分类机器学习模型,并通过分层 k 折交叉验证和网格搜索进行优化。在评估模型时,采用了准确率、召回率等多种指标。同时,对比了局部可解释模型无关解释(LIME)、SHapley 加性解释(SHAP)和新提出的扰动基解释(PeBEx)这三种可解释人工智能(XAI)方法。
实验与结果
- 合成数据实验:在对随机森林(RF)和多层感知器(MLP)模型应用于多个合成数据集的实验中,研究人员对特征重要性进行了分析。结果发现,LIME、SHAP 和 PeBEx 识别出的特征重要性与 RF 模型本身的特征重要性高度相似,这表明这些 XAI 模型在合成数据集上能够有效识别重要特征。在模型训练和执行时间分析方面,针对不同合成数据集,对比了三种 XAI 方法的解释时间。在 RF 模型实验中,随着样本数量增加,LIME 的解释时间始终最长,PeBEx 比 LIME 更高效,SHAP 在大多数情况下效率最高,但在某些样本数量范围内,PeBEx 的性能更优。在 MLP 模型实验中,SHAP 的解释时间在多数情况下最高,PeBEx 则在多个样本数量下表现出比 LIME 更好的效率,且在部分数据集上,PeBEx 是最具计算效率的方法。
- 综合可解释 ML 模型评估:在使用公共数据集进行的实验中,研究人员对多种 ML 模型在不同数据集上进行了评估,涉及心脏疾病、德国信用、乳腺癌威斯康星和汽车评估等数据集。评估指标包括准确率、召回率、F1 分数、精度、特异性和 AUC。结果显示不同模型在不同数据集上各有优劣。同时,对比三种 XAI 方法,PeBEx 在计算效率方面表现出色,尤其是在处理复杂模型和大规模数据时,优势更为明显。
研究结论与讨论
研究结果表明,虽然 SHAP 和 LIME 能提供详细的解释,但计算成本较高,在处理复杂模型(如 MLP)时尤为突出。而 PeBEx 在保证解释质量的同时,展现出卓越的计算效率和可扩展性。这一特性使得 PeBEx 特别适合那些对响应时间要求较高的应用场景,如实时决策系统。此外,PeBEx 的解释粒度可以通过调整扰动范围的点数进行控制,为不同应用需求提供了灵活性。
这项研究具有重要意义。它不仅推进了人们对 XAI 计算方面的理解,还为提高机器学习模型的可解释性提供了一种可行的解决方案。PeBEx 的出现,为在复杂模型和大规模数据场景下实现高效、可靠的模型解释开辟了新途径,有望在医疗、金融、自动驾驶等多个领域发挥重要作用,助力这些领域更安全、有效地应用 AI 技术。