无敌的Log-Likelihood Ratio(1)——LLR的计算方式
Log Likelihood Ratio的计算公式和代码实现以及相关的原理性的东西。希望和大家一起讨论,一起进步。
T e d D u n n i n g Ted\; Dunning TedDunning在 《 A c c u r a t e M e t h o d s f o r t h e S t a t i s t i c s o f S u r p r i s e a n d C o i n c i d e n c e 》 《Accurate\; Methods\; for\; the\; Statistics\; of\; Surprise\; and\; Coincidence》 《AccurateMethodsfortheStatisticsofSurpriseandCoincidence》中介绍了 L o g − L i k e h o o d R a t i o Log-Likehood\; Ratio Log−LikehoodRatio在文本计算中的基本使用。 L L R LLR LLR因为实现简单、有效并且具有大规模数据上的可扩展性,能够被很好的使用到工业系统中。因此基于 L L R LLR LLR的相似度度量广泛应用在推荐系统等多种应用当中。
在这篇Blog中,我们忽略 《 A c c u r a t e M e t h o d s f o r t h e S t a t i s t i c s o f S u r p r i s e a n d C o i n c i d e n c e 》 《Accurate\; Methods\; for\; the\; Statistics\; of\; Surprise\; and\; Coincidence》 《AccurateMethodsfortheStatisticsofSurpriseandCoincidence》中对 L L R LLR LLR过多的冗余描述,主要集中的去关注 L L R LLR LLR的计算方式和现有的一些简单有效的代码实现。
本篇博客的组织方式如下。在章节1中,以最简单的方式讨论了 L o g − L i k e l i h o o d R a t i o Log-Likelihood\; Ratio Log−LikelihoodRatio相似度的计算方式,在章节2中讨论了 L o g − L i k e l i h o o d R a t i o Log-Likelihood\; Ratio Log−LikelihoodRatio的具体的代码实现,以及一些可以现用的相似度计算工具。
1. LLR的计算方式
在计算两个事件(例如推荐系统中的点击行为)的
L
L
R
LLR
LLR值来做相似度衡量的时候,我们通过两个事件的计数来计算事件之间的相似度。接下来我们以推荐系统中物品相似度的计算为例来介绍
L
L
R
LLR
LLR的计算方式。
有两个物品分别为物品
i
i
i和物品
j
j
j。对应事件计数的简单形式化描述如下:
k
11
k_{11}
k11:表示同时浏览了物品
i
i
i和物品
j
j
j的用户。
k
12
k_{12}
k12:表示浏览了物品
i
i
i,但是没有浏览物品
j
j
j的用户。
k
21
k_{21}
k21:表示浏览了物品
j
j
j,但是没有浏览物品
i
i
i的用户。
k
22
k_{22}
k22:表示没有浏览物品
i
i
i,并且没有浏览物品
j
j
j的用户。
根据上述,我们可以得到如下的一个表格:
事件 | 浏览 I t e m i Item\;i Itemi | 没有浏览 I t e m i Item\;i Itemi |
---|---|---|
浏览 I t e m j Item\; j Itemj | k 11 k_{11} k11 | k 21 k_{21} k21 |
没有浏览 I t e m j Item\;j Itemj | k 12 k_{12} k12 | k 22 k_{22} k22 |
I
t
e
m
i
Item\; i
Itemi和
I
t
e
m
j
Item\;j
Itemj的
L
L
R
LLR
LLR计算公式如下:
S
=
2
×
(
H
m
−
H
c
−
H
r
)
S=2\times (H_m - H_c - H_r)
S=2×(Hm−Hc−Hr)
其中:
H
m
H_m
Hm表示上述矩阵的矩阵熵,总体的计算公式如下:
H
m
=
−
(
k
11
N
l
o
g
(
k
11
N
)
+
k
12
N
l
o
g
(
k
12
N
)
+
k
21
N
l
o
g
(
k
21
N
)
+
k
22
N
l
o
g
(
k
22
N
)
)
H_m = - (\frac{k_{11}}{N}\;log(\frac{k_{11}}{N}) + \frac{k_{12}}{N}\;log(\frac{k_{12}}{N}) + \frac{k_{21}}{N}\;log(\frac{k_{21}}{N}) + \frac{k_{22}}{N}\;log(\frac{k_{22}}{N}))
Hm=−(Nk11log(Nk11)+Nk12log(Nk12)+Nk21log(Nk21)+Nk22log(Nk22))
H
r
H_r
Hr表示每行相加计算得到的信息熵,相关的具体计算公式如下:
H
r
=
−
(
k
11
+
k
12
N
l
o
g
(
k
11
+
k
12
N
)
+
k
21
+
k
22
N
l
o
g
(
k
21
+
k
22
N
)
)
H_r = -(\frac{k_{11} + k_{12}}{N}\; log(\frac{k_{11}+k_{12}}{N}) +\frac{k_{21} + k_{22}}{N}log(\frac{k_{21} + k_{22}}{N}))
Hr=−(Nk11+k12log(Nk11+k12)+Nk21+k22log(Nk21+k22))
H
c
H_c
Hc表示矩阵的每一列相加计算得到的信息熵,相关的具体计算公式如下:
H
c
=
−
(
k
11
+
k
21
N
l
o
g
(
k
11
+
k
21
N
)
+
k
21
+
k
22
N
l
o
g
(
k
21
+
k
22
N
)
)
H_c=-(\frac{k_{11} + k_{21}}{N}\; log(\frac{k_{11}+k_{21}}{N}) +\frac{k_{21} + k_{22}}{N}log(\frac{k_{21} + k_{22}}{N}))
Hc=−(Nk11+k21log(Nk11+k21)+Nk21+k22log(Nk21+k22))
其中 N = k 11 + k 12 + k 21 + k 22 N=k_{11} + k_{12} + k_{21} + k_{22} N=k11+k12+k21+k22
2. LLR的代码实现
在 M a h o u t Mahout Mahout的 m a t h math math库中定义了 L o g L i k e l i h o o d LogLikelihood LogLikelihood类,实现了 L L R LLR LLR的计算,其中具体的计算代码在下面给出。
- r o w E n t r o p y rowEntropy rowEntropy的计算方式如下
private static double xLogX(long x) {
return x == 0 ? 0.0 : x * Math.log(x);
}
private static double entropy(long a, long b) {
return xLogX(a + b) - xLogX(a) - xLogX(b);
}
其中
a
=
k
11
+
k
12
a=k_{11} + k_{12}
a=k11+k12并且
b
=
k
21
+
k
22
b=k_{21} + k_{22}
b=k21+k22,综合得到
r
o
w
E
n
t
r
o
p
y
=
(
N
×
l
o
g
(
N
)
−
(
k
11
+
k
12
)
×
l
o
g
(
k
11
+
k
12
)
−
(
k
21
+
k
22
)
×
l
o
g
(
k
21
+
k
22
)
)
=
−
(
(
k
11
+
k
12
)
×
l
o
g
(
N
)
−
(
k
11
+
k
12
)
×
l
o
g
(
k
11
+
k
12
)
+
(
k
21
+
k
22
)
×
l
o
g
(
N
)
−
(
k
21
+
k
22
)
×
l
o
g
(
k
21
+
k
22
)
)
=
−
(
(
k
11
+
k
12
)
×
(
l
o
g
(
N
)
−
l
o
g
(
k
11
+
k
12
)
)
+
(
k
21
+
k
22
)
×
(
l
o
g
(
N
)
−
l
o
g
(
k
21
+
k
22
)
)
)
=
(
k
11
+
k
12
)
×
(
l
o
g
k
11
+
k
12
N
)
+
(
k
21
+
k
22
)
×
(
l
o
g
k
21
+
k
22
N
)
=
−
H
r
×
N
rowEntropy = (N \times log\;(N) - (k_{11} + k_{12}) \times log\;(k_{11} + k_{12}) -(k_{21} + k_{22} )\times log\;(k_{21} + k_{22})) \\ \;\\ = -((k_{11}+k_{12})\times log\;(N)-(k_{11} + k_{12}) \times log\;(k_{11} + k_{12}) + (k_{21} + k_{22}) \times log\;(N) - (k_{21} + k_{22} )\times log\;(k_{21} + k_{22})) \\ \;\\ =-((k_{11} + k_{12}) \times(log(N)-log(k_{11}+k_{12})) + (k_{21} + k_{22}) \times(log(N)-log(k_{21}+k_{22})))\\ \;\\ =(k_{11} +k_{12}) \times(log\;\frac{k_{11} + k_{12}}{N}) + (k_{21} + k_{22}) \times(log\;\frac{k_{21} + k_{22}}{N}) = - H_r \times N
rowEntropy=(N×log(N)−(k11+k12)×log(k11+k12)−(k21+k22)×log(k21+k22))=−((k11+k12)×log(N)−(k11+k12)×log(k11+k12)+(k21+k22)×log(N)−(k21+k22)×log(k21+k22))=−((k11+k12)×(log(N)−log(k11+k12))+(k21+k22)×(log(N)−log(k21+k22)))=(k11+k12)×(logNk11+k12)+(k21+k22)×(logNk21+k22)=−Hr×N
- 同样的
c
o
l
E
n
t
r
o
p
y
colEntropy
colEntropy的计算方式如下:
c o l E n t r o p y = ( k 11 + k 21 ) × ( l o g k 11 + k 21 N ) + ( k 12 + k 22 ) × ( l o g k 12 + k 22 N ) = − H c × N colEntropy = (k_{11} +k_{21}) \times(log\;\frac{k_{11} + k_{21}}{N}) + (k_{12} + k_{22}) \times(log\;\frac{k_{12} + k_{22}}{N}) = -H_c \times N colEntropy=(k11+k21)×(logNk11+k21)+(k12+k22)×(logNk12+k22)=−Hc×N
- m a t r i x E n t r o p y matrixEntropy matrixEntropy的计算方式
private static double entropy(long a, long b, long c, long d) {
return xLogX(a + b + c + d) - xLogX(a) - xLogX(b) - xLogX(c) - xLogX(d);
}
m a t r i x E n t r o p y = N × l o g ( N ) − k 11 l o g ( k 11 ) − k 12 l o g ( k 12 ) − k 21 l o g ( k 21 ) − k 22 l o g ( k 22 ) = − ( k 11 × l o g ( k 11 N ) + k 12 × l o g ( k 12 N ) + k 21 × l o g ( k 21 N ) ) + k 21 × l o g ( k 21 N ) ) × N matrixEntropy= N\times log\;(N) - k_{11}\;log(k_{11}) -k_{12}\;log(k_{12}) - k_{21}\;log\;(k_{21}) - k_{22}\;log(k_{22}) \\ \;\\ = - (k_{11}\times log\;(\frac{k_{11}}{N})+k_{12}\times log\;(\frac{k_{12}}{N}) + k_{21}\times log\;(\frac{k_{21}}{N})) + k_{21}\times log\;(\frac{k_{21}}{N})) \times N matrixEntropy=N×log(N)−k11log(k11)−k12log(k12)−k21log(k21)−k22log(k22)=−(k11×log(Nk11)+k12×log(Nk12)+k21×log(Nk21))+k21×log(Nk21))×N
- 最终相似度 S S S的计算结果
public static double logLikelihoodRatio(long k11, long k12, long k21, long k22) {
Preconditions.checkArgument(k11 >= 0 && k12 >= 0 && k21 >= 0 && k22 >= 0);
// note that we have counts here, not probabilities, and that the entropy is not normalized.
double rowEntropy = entropy(k11 + k12, k21 + k22);
double columnEntropy = entropy(k11 + k21, k12 + k22);
double matrixEntropy = entropy(k11, k12, k21, k22);
if (rowEntropy + columnEntropy < matrixEntropy) {
// round off error
return 0.0;
}
return 2.0 * (rowEntropy + columnEntropy - matrixEntropy);
}
S = 2 × ( r o w E n t r o p y + c o l E n t r o p y − m a t r i x E n t r o p y ) = 2 × ( − H r N − H c N + H m N ) = 2 N ( H m − H r − H c ) S= 2 \times(rowEntropy + colEntropy - matrixEntropy) = 2 \times (- \frac{H_r}{N} - \frac{H_c}{N} + \frac{H_m}{N}) = \frac{2}{N}(H_m - H_r - H_c) S=2×(rowEntropy+colEntropy−matrixEntropy)=2×(−NHr−NHc+NHm)=N2(Hm−Hr−Hc)
在代码实现里面相似度的计算过程中把
N
N
N约掉了,所以在
m
a
h
o
u
t
mahout
mahout计算当中实际计算得到的值为
S
=
2
N
(
H
m
−
H
r
−
H
c
)
S=\frac{2}{N}(H_m - H_r - H_c)
S=N2(Hm−Hr−Hc)
3 相关疑问
问题 1: 在代码的计算过程中,约掉分母
N
N
N对整个结果有影响嘛?
问题 2: 在有些博客资料中称
H
r
H_r
Hr为行熵,称
H
c
H_c
Hc为列熵,并且计算公式不如下:
这种方式和我上面描述的计算方式等价嘛?那种更准确?
欢迎大家留言讨论,如果有问题或者建议的地方希望大家能够提出再核对问题后我会在第一时间进行修正。
4 参考资料
【1】LLR (Log-Likelihood Ratio) used for recommendations
【2】Accurate Methods for the Statistics of Surprise and Coincidence
【3】Building a Correlated Cross-Occurrence (CCO) Recommenders with the Mahout CLI
【4】github · Mathout LogLikelihood Similarity
【5】Surprise and Coincidence
【6】loglikelihood ratio 相似度
更多推荐
所有评论(0)