[算法]PRML学习笔记1.2.6贝叶斯曲线拟合(Bayesian curve fitting)
简介尽管包括了先验分布p(w∣α)p(w|\alpha)p(w∣α),但到目前为止仍在对www进行点估计,因此这还不等于贝叶斯的处理方式。 在完整贝叶斯的方法中,应始终如一地应用概率的和(sum)和乘积(product)规则,这将要求,正如将很快看到的那样,需要对www的所有值进行积分(integrate)。 这种边缘化(marginalizations)是贝叶斯模式识别方法的核心。...
参考文献:Pattern Recognition and Machine Learning
Published by Springer | January 2006
https://www.microsoft.com/en-us/research/publication/pattern-recognition-machine-learning/
简介
尽管包括了先验分布 p ( w ∣ α ) p(w|\alpha) p(w∣α),但到目前为止仍在对 w w w进行点估计,因此这还不等于贝叶斯的处理方式。 在完整贝叶斯的方法中,应始终如一地应用概率的和(sum)和乘积(product)规则,这将要求,正如将很快看到的那样,需要对 w w w的所有值进行积分(integrate)。 这种边缘化(marginalizations)是贝叶斯模式识别方法的核心。
从贝叶斯中推断参数
在曲线拟合问题中,获得了训练数据 x x x和 t t t以及新的测试点 x x x,目标是预测 t t t的值。 因此,希望评估预测分布 p ( t ∣ x , X , t ) p(t | x, X, t) p(t∣x,X,t)。 在这里,假设参数 α \alpha α和 β \beta β是 固定 (fixed) 的并且事先已知(在后面的章节中,将讨论如何从贝叶斯设置 Bayesian setting 中的数据中推断出这些参数)。
贝叶斯的处理是简单地对应于概率之和和乘积规则的一致应用,这允许将预测分布写为以下形式 :(1.68) p ( t ∣ x , X , t ) = ∫ p ( t ∣ x , w ) p ( w ∣ X , t ) d w p(t | x, X, t) = \displaystyle \int{p(t | x, w)p(w| X, t)d_w} p(t∣x,X,t)=∫p(t∣x,w)p(w∣X,t)dw
这里的
p
(
t
∣
x
,
w
)
p(t | x, w)
p(t∣x,w)由(1.60)给出,为了简化符号,省略了对
α
\alpha
α和
β
\beta
β的依赖。 这里的
p
(
w
∣
X
,
t
)
p(w | X, t)
p(w∣X,t)是参数的后验分布,可以通过对(1.66)的右侧进行归一化 (normalizing)得到。 将在第3.3节中看到,对于诸如曲线拟合示例之类的问题,这里的后验分布是高斯分布,可以进行分析评估。 同样,(1.68)中的积分也可以解析地执行,其结果是,预测分布由以下形式的高斯给出: (1.69)
p
(
t
∣
x
,
X
,
t
)
=
N
(
t
∣
m
(
x
)
,
s
2
(
x
)
)
p(t|x,X,t)=N(t|m(x),s^2(x))
p(t∣x,X,t)=N(t∣m(x),s2(x))
这里方差和平均值分别由下面两个式子给出:
(1.70):
m
(
x
)
=
β
ϕ
(
x
)
T
S
∑
n
=
1
N
ϕ
(
x
n
)
t
n
m(x) =\beta \phi(x)^TS\displaystyle \sum^{N}_{n=1}{\phi(x_n)t_n}
m(x)=βϕ(x)TSn=1∑Nϕ(xn)tn
(1.71)
s
(
x
)
=
β
−
1
+
ϕ
(
x
)
T
S
ϕ
(
x
)
s(x) = \beta^{-1} +\phi(x)^T S\phi(x)
s(x)=β−1+ϕ(x)TSϕ(x)
这里的矩阵(matrix)S由下式(1.72)给出: S − 1 = α I + β ∑ n = 1 N ϕ ( x n ) ϕ ( x ) T S^{-1} = \alpha I +\beta\displaystyle \sum^{N}_{n=1}{\phi(x_n)\phi(x)^T} S−1=αI+βn=1∑Nϕ(xn)ϕ(x)T
其中 I I I是单位矩阵,对于 i = 0,…,M,我们用元素$\phi_i(x) = x^i 定 义 了 矢 量 定义了矢量 定义了矢量\phi(x)$。
这里可以看到(1.69)中的预测分布的方差和均值取决于
x
x
x。 (1.71)中的第一项表示由于目标变量上的噪声引起的
t
t
t预测值的不确定性,并且已经通过最大似然预测分布(1.64)通过
β
M
L
−
1
\beta_{ML}^{-1}
βML−1表示。 但是,第二项来自参数
w
w
w的不确定性,是贝叶斯处理的结果。 合成正弦回归问题(synthetic sinusoidal regression problem )的预测分布如图1.17所示。
图1.17: 由使用M = 9多项式的多项式曲线拟合进行贝叶斯处理产生的预测分布,固定参数为 α = 5 × 1 0 − 3 \alpha= 5×10^{-3} α=5×10−3和 β = 11.1 \beta= 11.1 β=11.1(对应于已知噪声方差),其中红色曲线为表示预测分布的平均值,红色区域对应于平均值附近的±1标准偏差。
总结
- 完整贝叶斯的方法 -> 应用概率的和(sum)和乘积(product)规则 -> 核心:边缘化(marginalizations)
- p ( t ∣ x , X , t ) p(t | x, X, t) p(t∣x,X,t) -> 参数 α \alpha α和 β \beta β是 固定 (fixed) 的并且事先已知 -> 进行归一化 (normalizing) -> 后验:高斯分布 -> 方差和平均值式子 ---- 矩阵(matrix)S & I I I单位矩阵
- 目标变量上的噪声 -> t t t预测值的不确定性 -> 通过 β M L − 1 \beta_{ML}^{-1} βML−1表示
- 参数 w w w的不确定性 -> 贝叶斯处理 -> 正弦回归问题(synthetic sinusoidal regression problem )
- 多项式曲线拟合 -> 进行贝叶斯处理 -> 预测分布 -> 预测分布的平均值 & 平均值附近的±1标准偏差
更多推荐
所有评论(0)