背景与定义
特征表示方式
结论
背景
定义与关键问题
深度学习模型
端到端学习
机器学习方法可以粗略地分为三个基本要素:模型、学习准则、优化算法
1. 模型
2. 学习准则
3. 优化算法
在实际应用中,数据的类型多种多样,比如文本、音频、图像、视频等,不同类型的数据,其原始特征(Raw Feature)的空间也不相同,为了提高机器学习算法的能力,需要抽取有效、稳定的特征
传统的特征学习
深度学习方法
为了衡量一个机器学习模型的好坏,需要给定一个测试集,用模型对测试集中的每一个样本进行预测,并根据预测结果计算评价分数,对于分类问题,常见的评价标准有:准确率、精确率、召回率和 F 值等
准确率是所有类别整体性能的平均,如果希望对每个类都进行性能估计,就需要计算精确率(Precision)和召回率(Recall)
对于类别 c 来说,模型在测试集上的结果可以分为以下四种情况
精确率(Precision):也叫精度或查准率,类别 𝑐 的查准率是所有预测为类别 𝑐 的样本中预测正确的比例
P
c
=
T
P
c
T
P
c
+
F
P
c
\mathcal{P}_c=\frac{TP_c}{TP_c+FP_c}
Pc=TPc+FPcTPc
召回率(Recall):也叫查全率,类别 𝑐 的查全率是所有真实标签为类别 𝑐 的样本中预测正确的比例
R
c
=
T
P
c
T
P
c
+
F
N
c
\mathcal{R}_c=\frac{TP_c}{TP_c+FN_c}
Rc=TPc+FNcTPc
F 值(F Measure):是一个综合指标,为精确率和召回率的调和平均,其中
β
\beta
β 用于平衡精确率和召回率的重要性,一般取值为 1,𝛽 = 1 时的 F 值称为 F1 值
F
c
=
(
1
+
β
2
)
×
P
c
×
R
c
β
2
×
P
c
+
R
c
\mathcal{F}_c=\frac{(1+\beta^2)\times\mathcal{P}_c\times\mathcal{R}_c}{\beta^2\times\mathcal{P}_c+\mathcal{R}_c}
Fc=β2×Pc+Rc(1+β2)×Pc×Rc
线性模型(Linear Model)是机器学习中应用最广泛的模型,指通过样本特征的线性组合来进行预测的模型,给定一个 𝐷 维样本
x
=
[
x
1
,
⋯
,
x
D
]
⊺
\boldsymbol{x}=[x_1,\cdots,x_D]^\intercal
x=[x1,⋯,xD]⊺,其线性组合函数为(其中
w
=
[
w
1
,
⋯
,
w
D
]
⊺
\boldsymbol{w}=[w_1,\cdots,w_D]^\intercal
w=[w1,⋯,wD]⊺ 为 𝐷 维的权重向量,𝑏 为偏置)
f
(
x
;
w
)
=
w
1
x
1
+
w
2
x
2
+
⋯
+
w
D
x
D
+
b
=
w
⊤
x
+
b
\begin{aligned} f(\mathbf{x};\boldsymbol{w})& =w_1x_1+w_2x_2+\cdots+w_Dx_D+b \\ &=\boldsymbol{w}^\top\boldsymbol{x}+b \end{aligned}
f(x;w)=w1x1+w2x2+⋯+wDxD+b=w⊤x+b
在分类问题中,由于输出目标 y 是一些离散的标签,而
f
(
x
;
w
)
f(\boldsymbol{x};\boldsymbol{w})
f(x;w) 的值域为实数,因此无法直接用
f
(
x
;
w
)
f(\boldsymbol{x};\boldsymbol{w})
f(x;w) 来进行预测,需要引入一个非线性的决策/激活函数
g
(
⋅
)
g(⋅)
g(⋅) 来预测输出目标(其中
f
(
x
;
w
)
f(\boldsymbol{x};\boldsymbol{w})
f(x;w) 也称为判别函数)
y
=
g
(
f
(
x
;
w
)
)
y=g(f(\boldsymbol{x};\boldsymbol{w}))
y=g(f(x;w))
1. Logistic 回归
2. Softmax 回归
3. 感知器
4. 支持向量机
总结
背景
- 人工神经网络(Artificial Neural Network,ANN)是指一系列受生物学和神经科学启发的数学模型.这些模型主要是通过对人脑的神经元网络进行抽象,构建人工神经元,并按照一定拓扑结构来建立人工神经元之间的连接,来模拟生物神经网络,在人工智能领域,人工神经网络也常常简称为神经网络(Neural Network,NN)或神经模型(Neural Model)
- 从机器学习的角度来看,神经网络一般可以看作一个非线性模型,其基本组成单元为具有非线性激活函数的神经元,通过大量神经元之间的连接,使得神经网络成为一种高度非线性的模型,神经元之间的连接权重就是需要学习的参数,可以在机器学习的框架下通过梯度下降方法来进行学习
典型的神经元结构
激活函数
为了增强网络的表示能力和学习能力,激活函数需要具备以下几点性质
常见激活函数
卷积(Convolution),也叫褶积,是分析数学中一种重要的运算,在信号处理或图像处理中,经常使用一维或二维卷积
卷积也经常用在图像处理中.因为图像为一个二维结构,所以需要将一维卷积进行扩展,给定一个图像
X
∈
R
M
×
N
X\in\mathbb{R}^{M\times N}
X∈RM×N 和一个滤波器
W
∈
R
U
×
V
W\in\mathbb{R}^{U\times V}
W∈RU×V,一般 𝑈 << 𝑀, 𝑉 << 𝑁,其卷积为
y
i
j
=
∑
u
=
1
U
∑
v
=
1
V
w
u
v
x
i
−
u
+
1
,
j
−
v
+
1
y_{ij}=\sum_{u=1}^U\sum_{v=1}^Vw_{uv}x_{i-u+1,j-v+1}
yij=u=1∑Uv=1∑Vwuvxi−u+1,j−v+1
输入信息
X
\boldsymbol{X}
X 和滤波器
W
\boldsymbol{W}
W 的二维卷积定义为
Y
=
W
∗
X
\boldsymbol{Y}=\boldsymbol{W}*\boldsymbol{X}
Y=W∗X
图像处理中常用的均值滤波(Mean Filter)就是一种二维卷积,将当前位置的像素值设为滤波器窗口中所有像素的平均值,即 w u v = 1 U V w_{uv}=\frac{1}{UV} wuv=UV1
在图像处理中,卷积经常作为特征提取的有效方法,一幅图像在经过卷积操作后得到结果称为特征映射(Feature Map)
卷积层虽然可以显著减少网络中连接的数量,但特征映射组中的神经元个数并没有显著减少,如果后面接一个分类器,分类器的输入维数依然很高,很容易出现过拟合,为了解决这个问题,可以在卷积层之后加上一个汇聚层,从而降低特征维数,避免过拟合
虽然神经网络具有非常强的表达能力,但应用神经网络模型到机器学习时依然存在一些问题
- 1. 优化问题
- 神经网络的损失函数是一个非凸函数,找到全局最优解通常比较困难
- 深度神经网络的参数通常非常多,训练数据也比较大,因此也无法使用计算代价很高的二阶优化方法,而一阶优化方法的训练效率通常比较低
- 深度神经网络存在梯度消失或爆炸问题,导致基于梯度的优化方法经常失效
- 2. 泛化问题
- 由于深度神经网络的复杂度比较高,并且拟合能力很强,很容易在训练集上产生过拟合,因此在训练深度神经网络时,同时也需要通过一定的正则化方法来改进网络的泛化能力
网络优化是指寻找一个神经网络模型来使得经验(或结构)风险最小化的过程,包括模型选择以及参数学习等,深度神经网络是一个高度非线性的模型,其风险函数是一个非凸函数,因此风险最小化是一个非凸优化问题
低维变量的问题
鞍点
平坦最小值
小批量梯度下降
1. 批量大小选择
2. 学习率调整
3. 梯度估计修正
神经网络常用优化方法
神经网络中可以存储的信息量称为网络容量(Network Capacity),一般来讲,要存储的信息越多,神经元数量就要越多或者网络要越复杂,进而导致神经网络的参数成倍地增加,大脑神经系统有两个重要机制可以解决信息过载问题:注意力和记忆机制
在计算能力有限的情况下,注意力机制也可称为注意力模型,注意力机制(Attention Mechanism)作为一种资源分配方案,将有限的计算资源用来处理更重要的信息,是解决信息超载问题的主要手段
注意力机制的计算可以分为两步
注意力机制的变体
自注意力模型
在强化学习中,有两个可以进行交互的对象:智能体和环境
强化学习的基本要素
深度强化学习
因篇幅问题不能全部显示,请点此查看更多更全内容