《Pattern Recognition》:Optimal probabilistic feature shifts for reclassification in tree ensembles
编辑推荐:
本文针对树集成分类模型中的特征偏移问题,提出了一种基于数学优化的新方法。研究人员通过构建混合整数非线性规划模型,旨在为个体找到最大化目标类别到达概率的特征修改方案,同时考虑个体改变特征的可行性限制。该研究在真实肥胖数据集和多个UCI数据集上验证了方法的有效性,结果表明该方法能够提供更合理的特征重要性排序,并为个体制定更可行的重分类策略,为可解释机器学习在健康医学等领域的应用提供了新思路。
在当今机器学习广泛应用于医疗健康、金融风控等关键领域的背景下,分类模型不仅需要高精度,更需具备可解释性。特别是在涉及个体决策支持的场景中,例如当一个人的贷款申请被拒绝或疾病风险被判定为高危时,仅仅知道预测结果远远不够。个体和决策者都迫切需要理解:如何才能改变当前的不利状况?具体应该调整哪些特征,以及如何调整,才能使得下一次评估时能够获得理想的结果?这就是特征偏移(Feature Shifts, FS)问题研究的核心。
传统的特征偏移方法大多基于距离度量,致力于寻找在特征空间中与原始观测点最接近且能被模型重新分类为期望类别的点。然而,这类方法存在明显局限。首先,“最接近”的解决方案在实践中对个体而言未必是“最可能实现”或“最可行”的。例如,改变一个二进制特征(如从“吸烟”变为“不吸烟”)可能比将一个连续特征(如收入)微调一个小数值要困难得多,尽管后者在欧几里得距离上看起来变化更小。其次,基于全局特征重要性(例如随机森林提供的特征重要性排名)来指导个体进行改变,可能会因为某些不可变特征(如年龄、家族史)在排名中占据高位,而误导个体将努力浪费在无法改变或难以改变的特征上,导致策略低效甚至无效。
为了解决这些问题,发表在《Pattern Recognition》上的论文“Optimal probabilistic feature shifts for reclassification in tree ensembles”提出了一种新颖的基于概率最优化的视角。该研究不再仅仅关注特征空间中的几何距离,而是将核心转向了个体改变特征值的“可能性”或“概率”。研究人员认为,一个有效的特征偏移方案,应该是那些个体在未来有一定概率能够实现的改变,并且这些改变能够以较高的可能性使得树集成分类器将其重新分类到目标类别。这种方法更符合现实世界的决策逻辑,即为个体提供一条切实可行、成功率高的“行动路径”。
为了将这一理念转化为可计算的模型,研究人员构建了一系列数学优化模型。其核心思想是,在个体改变特征的能力(即“努力”或“预算”)有限的前提下,如何分配这些努力到不同的特征上,才能最大化整个树集成模型将个体分类到期望类别的概率。这涉及到对树集成中每棵决策树内部路径的复杂概率计算和组合优化。
本研究主要依赖于数学优化和计算模拟等关键技术方法。研究人员构建了混合整数非线性规划(MINLP)模型来形式化描述概率最大化的特征偏移问题,并采用了线性外近似等技巧进行求解。概率参数的估计则通过基于训练数据统计特性的模拟方法完成。实验验证使用了来自UCI机器学习仓库的多个真实数据集(如肥胖分类数据集)以及随机森林(Random Forest)作为基础分类器,通过将数据集划分为训练集和测试集,在训练集上求解模型得到特征排序,然后在测试集上通过蒙特卡洛模拟来评估不同特征排序引导下个体成功重分类的比率。
研究框架与模型构建
研究首先回顾了基于距离的特征偏移方法及其在树集成模型中的数学规划形式化。该方法旨在最小化原始观测点x0与偏移后点x之间的某种代价函数C(x0, x),并满足x被树集成模型分类为目标类别k*的约束。这些约束确保了x在集成中至少获得R/2棵树的投票支持目标类别。然而,作者指出,这种基于纯粹空间接近性的方法可能无法反映改变的实际可行性。
为此,论文提出了概率可行性框架。研究假设个体拥有一个总量为η的努力预算,可以分配到各个特征上以改变其值。每个特征值的改变概率被预先定义或估计。例如,对于一个二分变量,从不吸烟到吸烟的改变概率可能被设定为一个值。模型的目标是找到一种努力分配方案,以及对应的特征偏移x,使得x被分类为k的联合概率最大。这个联合概率是各个树将x分类到k的相应路径概率的乘积(考虑树的独立性)。由于只需要多数票(R/2 + 1)即可决定分类,模型巧妙地引入“必要树”和“非必要树”的概念,并利用二元决策变量来标识哪些树对改变分类是关键的。
概率优化模型族
论文提出了三种不同风险偏好的优化模型变体,为决策者提供了灵活性。
- 1.
最大路径概率模型(Max-path):此模型旨在最大化个体达到目标类别的“最佳情况”概率。它寻找那些能够使得在“必要树”中沿着最可能路径到达支持k*的叶子的特征偏移。这个模型适用于风险偏好型的决策者,愿意追求成功概率最高的方案,即使该方案可能在某些情况下表现不佳。
- 2.
最小路径概率模型(Min-path):与Max-path相反,此模型采用“最大最小”(max-min)的稳健优化策略。其目标是最大化所有“必要树”中“最不可能”路径的概率。也就是说,它确保即使在最不利的情况下,分类为k*的概率也被尽可能提升。这种方法得到的特征偏移方案非常稳健,适用于风险厌恶的决策者,希望保证最坏情况下的表现。
- 3.
κ-路径概率模型(κ-path):这是一个介于前两者之间的折中方案。它不只看最好或最坏的路径,而是要求概率最低的κ条路径的累积概率超过一个阈值μ。这相当于在优化中引入了条件风险价值(CVaR)的思想,使解决方案对一系列可能的情景都具有鲁棒性,而不是仅仅针对极端情况。研究表明,特别是当κ设置为50%(即中位数路径)时,该模型通常在效果和稳健性之间取得了良好的平衡。
案例研究:肥胖分类中的应用
为了验证所提方法的有效性,研究团队进行了一项关于肥胖分类的案例研究。数据集包含来自墨西哥、秘鲁和哥伦比亚的2111名个体的健康行为数据,目标是根据16项特征预测个体是否肥胖。研究人员训练了一个包含25棵深度为5的决策树的随机森林分类器。
首先,他们使用训练集中的肥胖个体,应用上述优化模型(特别是50%-path模型)来求解在不同努力预算(η=1,2,3,4)下,哪些特征的努力投入能最大化从“肥胖”类别转变为“健康”类别的概率。根据模型求解结果中特征被选中的频率,生成了新的特征重要性排序。
接着,在测试集上进行了模拟评估。对于每个测试集中的肥胖个体,根据不同的特征排序(包括本文方法生成的排序、随机森林内置的特征重要性排序、SHAP方法生成的排序以及随机排序),选择排名前η的特征进行“努力干预”(即按照预设概率改变这些特征值),然后使用训练好的随机森林重新分类,计算成功转变为“健康”类别的个体比例。
研究结果与讨论
实验结果令人印象深刻。如表4所示,与传统的随机森林特征重要性(RFR)和SHAP方法相比,本文提出的概率优化方法(特别是50%-path模型)在大多数情况下能引导更高比例的个体成功实现重分类。例如,在η=3时,50%-path模型成功重分类的比例达到32.34%,显著高于RFR和SHAP的25.04%。这意味着,遵循本文方法给出的建议(即优先改变“热量消耗监测SCC”、“使用电子设备时间TUE”和“高频摄入高热量食物FAVC”这三个特征),个体更有可能通过努力摆脱肥胖分类。
值得注意的是,本文方法给出的特征排序与标准方法存在显著差异。例如,在标准排序中重要性较低的“热量消耗监测SCC”在本文模型中被赋予很高的重要性。原因在于,虽然只有少数人实际监测热量,但对于那些能够并愿意在此项上付出努力的个体来说,这个改变可能极其有效地影响决策树中的特定路径,从而极大地提高重分类概率。这表明本文方法能够揭示出那些对全局分类贡献不大、但对个体行为改变极具针对性的“高杠杆”特征。
结论与意义
本研究的主要贡献在于将概率可行性的概念系统地引入到特征偏移问题的建模中,并发展了一套基于数学优化的完整方法论。通过构建Max-path、Min-path和κ-path等一系列模型,该研究为在不同风险偏好下寻找最优特征偏移提供了有力工具。
其重要意义体现在以下几个方面:
- 1.
增强可解释性与可操作性:该方法不仅解释了“为什么”一个实例被分类为某个类别,更重要的是提供了“如何做”才能改变分类的具体、可操作的行动指南,并且这些指南是考虑了个体改变能力的、概率上最有可能成功的方案。
- 2.
提供稳健的决策支持:通过不同的模型变体,决策者可以根据自身的风险承受能力选择保守型、激进型或折中型的策略,使推荐系统更具适应性。
- 3.
发现隐藏的重要特征:该方法能够识别出传统全局特征重要性排名可能忽略的、但对特定个体重分类至关重要的特征,有助于发现新的、有针对性的干预靶点。
- 4.
在肥胖研究等健康医学领域的成功应用表明,该方法在指导公共卫生政策制定、个性化健康干预方案设计方面具有巨大潜力。例如,它可以用于建议肥胖人群优先改变哪些生活习惯能最有效地降低健康风险。
总之,这项研究为树集成模型的可解释性研究开辟了新的方向,将研究重点从静态的“解释”推向动态的“干预”,为实现更负责任、更有益的人工智能应用迈出了重要一步。未来的工作可以探索将此类方法扩展到其他类型的模型(如神经网络),以及处理特征间存在相关性的更复杂场景。