admin管理员组

文章数量:1652185

作者:18届 cyl

日期:2021-08-09

论文:《A Unified Approach to Interpreting Model Predictions》

一、前言

在许多应用中,理解一个模型为什么要进行某种预测与预测的准确性同样重要。即确定每个输入特征的
重要性十分重要。
SHAP (SHapley Additive explanation,加性特征)则为每个输入特征分配了一个特定预测的重要性值。
(西瓜颜色对结果甜度的重要性)
它的新颖之处包括:
(1)确定了一类新的可加性特征重要性测度,
(2)理论结果表明,在这类测度中存在一个具有一组理想性质的唯一解。
(3)SHAP统一了6个现有的方法。

二、原理

2.1 目标
定义一个更为简单的模型作为原始模型的任何可解释的近似。
2.2 公式
1、设f为待解释的原始预测模型,g为解释模型。
2、基于单个输入x的预测f(x), 3、解释模型通常使用简化的输入x 0,通过映射函数x = hx(x 0)映射到原始输入,
4、局部方法在z0≈x0时尽量确保g(z0)≈f(hx(z0))
5、

6、其中 的均值为SHAP值(对输入自己的所有可能组合求均值)

三、SHAP优势

3.1 局部精度

3.2 缺失

3.3 一致性
如果模型发生变化,使得某些简化的输入的贡献增加或保持不变,而不管其他输入如何,则该输入的属
性不应减少。
3.4 最大SHAP
通过计算每个输入增加最大值的概率来加速shapely值的计算。时间复杂度为O(n^2)
3.5 Deep SHAP
深度SHAP将网络中较小组件的SHAP 值合并为整个网络的SHAP值。它通过递归传递计算SHAP值
(如下图B所示)

四、方法评估


(A) Shapley核加权是对称的,当所有可能的z0向量是由基数排序时,在这个例子中有2 15个向量。这与
以前启发式选择的内核明显不同。(B)组成模型,如深度神经网络,是由许多简单组件组成的。给定组件
Shapley值的解析解,可以使用DeepLIFT的反向传播方式对整个模型进行快速逼近。

举例子:通过判断一个有头晕症状的人是因为其发烧还是咳嗽的调查。若该病人只咳嗽或者发烧,则相
应疾病对应得分为5,若既咳嗽又发烧则打分为2,其余为0。调查发现对类似问题人和SHAP值打分相
近。证明了此方法的一致性

A 解释在MNIST数字数据集上训练的卷积神经网络:为了从8到3去除像素,红色区域为擦除该像素的概
率大
B 当擦除20个像素点时,SHAP组表现最好

本文标签: 模型方法论文ApproachUnified