沙普利值（Shapley value）是怎么解释机器学习模型的？

沙普利值来源于合作博弈，cooperative game (coalitional game)。区别于传统博弈认为个体之间是相互独立的并分析其纳什均衡的方法，合作博弈会考虑每个player之间的协作关系，分析合作中会出现的112的收益等情景。合作博弈中一般包含N个参与者，以及一个用于评估不同参与者合作收益的value functionv, 且vϕ0。Shapley value的目的就是解释在一次可

Jie Qiao

2500人浏览 · 2023-05-31 21:50:42

Jie Qiao · 2023-05-31 21:50:42 发布

Shapley value

我们先介绍一下沙普利值。沙普利值来源于合作博弈，cooperative game (coalitional game)。区别于传统博弈认为个体之间是相互独立的并分析其纳什均衡的方法，合作博弈会考虑每个player之间的协作关系，分析合作中会出现的 $\displaystyle 1+1 >2$ 的收益等情景。合作博弈中一般包含 $\displaystyle N$ 个参与者，以及一个用于评估不同参与者合作收益的value function $\displaystyle v$ , 且 $\displaystyle v( \phi ) =0$ 。

Shapley value的目的就是根据各种不同的合作方式及其收益总结出每个人的贡献是多少？

考虑一个打工人的例子，假设资本家是 $\displaystyle o$ owner,提供生成工具，没有他就不会有任何产出，然后有 $\displaystyle m$ 个工人，那么player一共有
$\displaystyle N=\{o,w_{1} ,...,w_{m}\}$ . 针对不同的打工的队伍，他们生成价值可以用一个value function来衡量：

$v(S)=\begin{cases} mp, & \text{if } o\in S\\ 0, & \text{otherwise} \end{cases}$

这里 $\displaystyle {\displaystyle S\subseteq N}$ , $\displaystyle m$ 是 $\ { o } \displaystyle S\backslash \{o\}$ 的工人数量。现在我们想知道，每个player对这个生产价值 $\displaystyle mp$ 的贡献。直觉上，资本家的贡献肯定是最大的，因为没了他不行，而工人的贡献则相对较少，有什么合理的方法来衡量每个人的贡献呢？

一个粗糙的想法是：每个player得到的回报（贡献）应该正比于他们的marginal contributions: $\ { i } ) \displaystyle v( S) -v( S\backslash \{i\})$ .

换句话说，我们是在用“删除”的方法来评估一个人的贡献，但是，显然在不同的协作场景下，删除带来的差异很可能是不一样的，例如，

$\ { i } ) = { p if i ≠ o m p if i = o v( N) -v( N\backslash \{i\}){\displaystyle =\begin{cases} p & \text{if } i\neq o\\ mp & \text{if} \ i=o \end{cases}}$

但是除了 $\displaystyle N$ 还有很多可能不同的协作情况 $\displaystyle S\subseteq N$ ，我们需要找到一个合理的权重分配方式，综合所有可能情况下的删除贡献，同时又让这个贡献满足一些比如对称性的性质。为此，shapley设计了几条公理，推导出了shapley value，用 $\displaystyle \phi _{i}( v)$ 表示第i个player的贡献。

公理1(对称性,Symmetry):如果player $\displaystyle i,j$ ，不管什么情况，他们value都是一样的， $\displaystyle v( S\cup \{i\}) =v( S\cup \{j\})$ ，对于任意的不包含 $\displaystyle i,j$ 的 $\displaystyle S$ 都成立，则他们的贡献也应该是一样的，于是 $\displaystyle \phi _{i}( N,v) =\phi _{j}( N,v) .$

公理2（dummy players）: 如果player $\displaystyle i$ 无论怎样的value都是0， $\displaystyle v( S\cup \{i\}) =v( S)$ ，则他的贡献也应该是0， $\displaystyle \phi _{i} =0$ .

公理3（Additivity）: 如果这个博弈可以分解为2个，即 $\displaystyle v=v_{1} +v_{2}$ ，那么对应的贡献也应该能分解 $\displaystyle \phi _{i}( N,v_{1} +v_{2}) =\phi _{i}( N,v_{1}) +\phi _{i}( N,v_{2})$

基于以上公理，我们可以推导出shapley value，对于coalitional game $\displaystyle ( N,v)$

$\ { i } ∣ S ∣ ! ( ∣ N ∣ − ∣ S ∣ − 1 ) ! N ! [ v ( S ∪ { i } ) − v ( S ) ] = ∑ S ⊆ N ∖ { i } ( N 1 , ∣ S ∣ , n − ∣ S ∣ − 1 ) − 1 ( v ( S ∪ { i } ) − v ( S ) ) = 1 N ∑ S ⊆ N ∖ { i } ( N − 1 ∣ S ∣ ) − 1 ( v ( S ∪ { i } ) − v ( S ) ) = 1 number of players ∑ coalitions including i marginal contribution of i to coalition number of coalitions excluding i of this size \begin{aligned} \phi _{i} (N,v) & =\sum _{S\subseteq \mathcal{N} \backslash \{i\}}\frac{|S|!(|N|-|S|-1)!}{N!}\Bigl[ v(S\cup \{i\})-v(S)\Bigr]\\ & {\displaystyle =\sum _{S\subseteq N\setminus \{i\}}\binom{N}{1,|S|,n-|S|-1}^{-1} (v(S\cup \{i\})-v(S))}\\ & ={\displaystyle \frac{1}{N}\sum _{S\subseteq N\setminus \{i\}}\binom{N-1}{|S|}^{-1} (v(S\cup \{i\})-v(S))}\\ & {\displaystyle =\frac{1}{\text{number of players}}\sum _{\text{coalitions including } i}\frac{\text{marginal contribution of } i\text{ to coalition}}{\text{number of coalitions excluding } i\text{ of this size}}} \end{aligned}$

可以证明这个shapley value是唯一的。他有几种不同但等价的表示方法，最直观的可能是最后一种，其核心思想是计算不同size下 $\displaystyle S$ 的数量，于是其倒数则可以认为这个size下每个 $\displaystyle S$ 所出现的概率，将其作为权重，然后又因为总权重加起来等于N所以除以N标准化一下。

我们来看下刚才资本家的例子，我们考虑 $\displaystyle N=\{o,w_{1} ,w_{2}\}$ ，只有两个工人，一个资本家，于是

$\begin{aligned} |S|=1 & :v(\{o\}) =0,v(\{w_{1}\}) =0,v(\{w_{1}\}) =0\\ |S|=2 & :v(\{o,w_{1}\}) =p,v(\{o,w_{2}\}) =p,v(\{w_{1} ,w_{2}\}) =0\\ |S|=3 & :v(\{o,w_{1} ,w_{2}\}) =2p \end{aligned}$

于是，

$\begin{aligned} \phi _{o} & =\frac{1}{3}[ v(\{\phi \} \cup \{o\}) -v(\{\phi \})\\ & +\frac{1}{2}( v(\{w_{1}\} \cup \{o\}) -v(\{w_{1}\})) +\frac{1}{2}( v(\{w_{2}\} \cup \{o\}) -v(\{w_{2}\}))\\ & +v(\{w_{1} ,w_{2}\} \cup \{o\}) -v(\{w_{1} ,w_{2}\})]\\ & =\frac{1}{3}\left[ 0-0+\frac{1}{2}( p-0+p-0) +2p-0\right] =p \end{aligned}$

$\begin{aligned} \phi _{w_{1}} & =\frac{1}{3}[ v(\{\phi \} \cup \{w_{1}\}) -v(\{\phi \})\\ & +\frac{1}{2}( v(\{o\} \cup \{w_{1}\}) -v(\{o\})) +\frac{1}{2}( v(\{w_{2}\} \cup \{w_{1}\}) -v(\{w_{2}\}))\\ & +v(\{o,w_{2}\} \cup \{w_{1}\}) -v(\{o,w_{2}\})]\\ & =\frac{1}{3}\left[ 0-0+\frac{1}{2}( p-0+0-0) +2p-p\right] =\frac{p}{2} \end{aligned}$

类似的 $\displaystyle \phi _{w_{2}} =\frac{p}{2}$ ，可以发现 $\displaystyle \phi _{o} +\phi _{w_{1}} +\phi _{w_{2}} =v( N) =2p$ . 而且资本家的贡献比打工人要多，符合我们的直觉。

Shapley value在机器学习任务上可解释性的运用

如果我们将value function看做是机器学习模型，那么 $\displaystyle N$ 就是模型某个样本输入，在可解释性任务中，我们一般需要去解释某个样本各个“取值”的贡献，也就是去解释 $\displaystyle N$ 中每个维度的贡献。如果我们按照shapley value的计算方式，我们就需要去取 $\displaystyle S\subseteq N$ 子集，然而一个机器学习模型无法真的输入一个子集，所以我们只能对那些被“删除”的取值设置一个baseline，比如均值，零值等等，如何选baseline也是一门学问，已经有很多相关的论文[5]。

使用shapley value的好处是，它有效建模了不同取值间的交互效应，并在此基础上计算出了一个满足上述三个公理的贡献值。

参考资料

[1] interpretable-ml-book/shapley

[2] 能不能形象的介绍一下 shapley 值法？

[3] Rozemberczki B, Watson L, Bayer P, et al. The shapley value in machine learning[J]. arXiv preprint arXiv:2202.05594, 2022.

[4] Understanding The Shapley Value

[5] 可解释性：完善Shapley value理论体系，建模并学习基准值

亚马逊云科技技术品牌专区

更多推荐

企业物联网平台如何选择？

亚马逊云科技技术品牌专区

STM32节点移植lorawan协议连接腾讯云物联网开发平台（IoT Explorer）

STM32移植lorawan协议连接腾讯云物联网开发平台（IoT Explorer）前言前言在移植协议之前，先给大家科普一下Lora 和 lorawan 的区别。LoRa 是LPWAN通信技术中的一种，是美国Semtech公司采用和推广的一种基于扩频技术的超远距离无线传输方案。这一方案改变了以往关于传输距离与功耗的折衷考虑方式为用户提供一种简单的能实现远距离、长电池寿命、大容量的系统，进而扩...

亚马逊云科技技术品牌专区

从华为的MQTT到TdEngineRPC，解读物联网时代的分布式

今天中秋节，笔者首先祝各位读者们中秋快乐，之所以在今天这个团圆节来谈分布式的话题，就是要聊聊物联网是如何通过MQTT连接各类终端，如何通过RPC整合各种数据的。下面就通过代码+动图的方式来解读一下华为LiteOS的MQTT与TD的RPC。MQTT协议MQTT是一个客户机服务器发布/订阅消息传输协议。它重量轻、开放、简单、易于实现。这些特性使其非常适合在物联网的低带宽、...