监督学习一般学习的是一个决策函数 y = f ( x ) y=f(x) y=f(x)或者是条件概率分布 p ( y ∣ x ) p(y|x) p(y∣x)。
判别模型直接用数据学习这个函数或分布,例如Linear Regression和Logistic Regression。
生成模型是先用数据学习联合概率分布
p
(
x
,
y
)
p(x,y)
p(x,y),然后使用贝叶斯公式求
p
(
y
∣
x
)
p(y|x)
p(y∣x)
p
(
y
∣
x
)
=
p
(
y
)
p
(
x
∣
y
)
p
(
x
)
p(y|x)=\frac{p(y)p(x|y)}{p(x)}
p(y∣x)=p(x)p(y)p(x∣y)
y
=
arg
max
y
p
(
y
∣
x
)
y=\arg\max_yp(y|x)
y=argymaxp(y∣x)
又
y
y
y不影响
p
(
x
)
p(x)
p(x),故
y
=
arg
max
y
p
(
y
)
p
(
x
∣
y
)
y=\arg\max_yp(y)p(x|y)
y=argymaxp(y)p(x∣y)
假设:
y
∼
B
e
r
n
o
u
l
l
i
(
ϕ
)
x
∣
y
=
0
∼
N
(
μ
0
,
Σ
)
x
∣
y
=
1
∼
N
(
μ
1
,
Σ
)
y \sim Bernoulli(\phi) \\ x|y=0 \sim \mathcal{N}(\mu_0,\Sigma) \\x|y=1 \sim \mathcal{N}(\mu_1, \Sigma)
y∼Bernoulli(ϕ)x∣y=0∼N(μ0,Σ)x∣y=1∼N(μ1,Σ)
那么
p
(
y
)
=
ϕ
y
(
1
−
ϕ
)
(
1
−
y
)
p
(
x
∣
y
=
0
)
=
1
2
π
n
/
2
∣
Σ
∣
1
/
2
exp
(
−
1
2
(
x
−
μ
0
)
T
Σ
−
1
(
x
−
μ
0
)
)
p
(
x
∣
y
=
1
)
=
1
2
π
n
/
2
∣
Σ
∣
1
/
2
exp
(
−
1
2
(
x
−
μ
1
)
T
Σ
−
1
(
x
−
μ
1
)
)
p(y) =\phi^y(1-\phi)^{(1-y)} \\ p(x|y=0) =\frac{1}{2\pi^{n/2}|\Sigma|^{1/2}}\exp \left(-\frac{1}{2}(x-\mu_0)^T\Sigma^{-1}(x-\mu_0)\right) \\ p(x|y=1) =\frac{1}{2\pi^{n/2}|\Sigma|^{1/2}}\exp \left(-\frac{1}{2}(x-\mu_1)^T\Sigma^{-1}(x-\mu_1)\right)
p(y)=ϕy(1−ϕ)(1−y)p(x∣y=0)=2πn/2∣Σ∣1/21exp(−21(x−μ0)TΣ−1(x−μ0))p(x∣y=1)=2πn/2∣Σ∣1/21exp(−21(x−μ1)TΣ−1(x−μ1))
于是使用极大似然估计求得参数
μ
0
,
μ
1
,
Σ
,
ϕ
\mu_0,\mu_1,\Sigma,\phi
μ0,μ1,Σ,ϕ
最终GDA模型如下:
在朴素贝叶斯模型中我们假设给定
y
y
y,所有的特征
x
1
,
x
2
,
…
,
x
n
x_1, x_2, \ldots, x_n
x1,x2,…,xn都是独立的,这是一个非常重要的假设。有了这个假设,我们就可以很方便的求解
p
(
x
∣
y
)
p(x|y)
p(x∣y)了,而
y
y
y服从伯努利分布,
p
(
x
,
y
)
p(x,y)
p(x,y)也就有了。
p
(
x
∣
y
)
=
p
(
x
1
∣
y
)
p
(
x
2
∣
y
)
…
p
(
x
n
∣
y
)
p(x|y)=p(x_1|y)p(x_2|y)\ldots p(x_n|y)
p(x∣y)=p(x1∣y)p(x2∣y)…p(xn∣y)
对于离散情况,我们假定
p
(
x
i
∣
y
)
p(x_i|y)
p(xi∣y)服从多项式分布(包括二项式分布)。
对于连续情况,我们假定
p
(
x
i
∣
y
)
p(x_i|y)
p(xi∣y)服从高斯分布。
然后使用极大似然估计求解模型中参数,最后使用
y
=
arg
max
y
p
(
x
,
y
)
y=\arg\max_y p(x,y)
y=argmaxyp(x,y)求得
y
y
y。
在连续情况下,我们一般使用高斯判别分析;在离散情况下,则使用朴素贝叶斯模型。
转载博客:
因篇幅问题不能全部显示,请点此查看更多更全内容