吴恩达机器学习五——神经网络

Cautiousnut

2022-02-27

机器学习

神经网络

概述

当问题变量过多，即n过大时，传统方式计算量过大，难以给出预期结果。因此引出神经网络算法
基本原理是模仿人脑

模型

单个神经元——逻辑单元
- 将神经元模拟成一个逻辑单元。其中 $h_\theta(x) = \frac{1}{1+e^{-\theta^Tx}}$ ， $x=\begin{bmatrix}x_0\\x_1\\x_2\\x^3\end{bmatrix},\theta=\begin{bmatrix}\theta_0\\\theta_1\\\theta_2\\\theta_3\end{bmatrix}$ ， $x_0=1$ 。
- 偏置单元：即 $x_0$
- 激活函数：即为非线性函数 $g(x)=\frac{1}{1+e^{-x}}$
- 模型权重：即为参数 $\theta$
多个神经元

$a_1^{2},a_2^{2},a_3^{2}$ 为中间神经元。第一层称为输入层，最后一层为输出层，中间层为隐藏层
- 激活项：由一个具体神经元计算并输出的值
- $a^{j}_i$ 表示第 $j$ 层第 $i$ 个激活项，其中 $a_0^j=1$
- $\Theta^j$ 表示用于控制从第 $j$ 层到第 $j+1$ 层的映射函数的权重矩阵。如果第 $j$ 层有 $s_j$ 个激活项，第 $j+1$ 层有 $s_{j+1}$ 激活项（ $s_j$ 不包含 $a_0^j$ ），则 $\Theta^j$ 为 $s_{j+1}\times (s_j+1)$ 维矩阵。 $\Theta^j_{ik}$ 表示第 $j$ 层第 $k$ 个神经元连接到第 $j+1$ 层第 $i$ 个神经元的权重。
- 神经网络的架构：神经网络中不同神经元的连接方式
- 计算过程
  
  $a^2_1 = g(\Theta_{10}^1x_0+\Theta_{11}^1x_1+\Theta_{12}^1x_2+\Theta_{13}^1x_3)$
  
  $a^2_2 = g(\Theta_{20}^1x_0+\Theta_{21}^1x_1+\Theta_{22}^1x_2+\Theta_{23}^1x_3)$
  
  $a^2_3 = g(\Theta_{30}^1x_0+\Theta_{31}^1x_1+\Theta_{32}^1x_2+\Theta_{33}^1x_3)$
  
  $h_\Theta(x) = a_1^3 = g(\Theta^2_{10}a_0^2+\Theta_{11}^2a_1^2+\Theta_{12}^2a_2^2+\Theta_{13}^2a_3^2)$
- 向量化
  
  $x=\begin{bmatrix}x_0\\x_1\\x_2\\x_3\end{bmatrix},z^2=\begin{bmatrix}z_1^2\\z_2^2\\z_3^2\end{bmatrix}$ ，其中 $z^2_1=\Theta_{10}^1x_0+\Theta_{11}^1x_1+\Theta_{12}^1x_2+\Theta_{13}^1x_3$ ，其余同理
  
  $z^2 = \Theta^1x=\Theta^1a^1$ ， $a^2=g(z^2)$ 。添加第二层偏置单元 $a^2_0=1$
  
  $z^3=\Theta^2a^2$ ， $h_\Theta(x)=a^3=g(z^3)$
  
  此计算过程也称为向前传播，从输入层到隐藏层再到输出层

多类别分类问题

多元问题

三个输出可以处理三个分类对象， $h_\theta(x)\in R^3$ ， $h_\theta = \begin{bmatrix}1\\0\\0\end{bmatrix},\begin{bmatrix}0\\1\\0\end{bmatrix},\begin{bmatrix}0\\0\\1\end{bmatrix}$

神经网络训练算法

问题描述

神经网络示意图

示意图

训练集为 $\{(x^1,y^1),(x^2,y^2),\cdots,(x^m,y^m)\}$

$L$ 表示所用神经网络的层数，此处 $L=4$

$s_l$ 表示第 $l$ 层的单元数，不包含偏置单元

代价函数

逻辑回归代价函数： $J(\theta) = -\frac{1}{m}\overset{m}{\mathop{\sum}\limits_{i=1}}[y^ilog(h_\theta(x^i))+(1-y^i)log(1-h_\theta(x^i))]+\frac{\lambda}{2m}\overset{n}{\mathop{\sum}\limits_{j=1}}\theta_j^2$

神经网络代价函数： $h_\theta(x)\in R^K \space\space(h_\Theta(x))_i=i^{th}output$ ，其中 $K$ 为类别个数

$J(\Theta)= -\frac{1}{m}\overset{m}{\mathop{\sum}\limits_{i=1}}\overset{K}{\mathop{\sum}\limits_{k=1}}[y^ilog(h_\Theta(x^i))_k+(1-y^i_k)log(1-(h_\Theta(x^i))_k)] +\frac{\lambda}{2m}\overset{L-1}{\mathop{\sum}\limits_{l=1}}\overset{s_l}{\mathop{\sum}\limits_{i=1}}\overset{s_l+1}{\mathop{\sum}\limits_{j=1}}(\Theta^l_{ji})^2$

反向传播算法

目的：求使得 $J(\Theta)$ 最小的 $\Theta$

需要计算的项： $J(\Theta)$ ，\frac{\part}{\part\Theta^l_{ij}}J(\Theta)

梯度检测

考虑以上函数图像，我们可以使用 $\frac{J(\theta+\epsilon)-J(\theta-\epsilon)}{2\epsilon}$ 来近似 $\frac{d J(\theta)}{d\theta}$ 的值，通常取 $\epsilon=10^{-4}$ 。

当 $\theta = \begin{bmatrix}\theta_1\\\theta_2\\\vdots\\\theta_n\end{bmatrix}$ 时，我们可以使用类似的思想来估计素有的偏导数项：

\frac{\part J(\theta)}{\part\theta_1}\approx\frac{J(\theta_1+\epsilon,\theta_2,\theta_3,\dots,\theta_n)-J(\theta_1-\epsilon,\theta_2,\theta_3,\dots,\theta_n)}{2\epsilon}，其余同理。

通过上述方式估算导数之后，与我们从反向传播算法中得到的导数相比较，相差较小，则说明反向传播算法是正确的。当检验确定反向传播算法实现正确之后，在进行实际学习时，不要进行梯度检验，因为梯度检验算法速度很慢，浪费计算资源。

随机初始化

初始化每个 $\Theta^l_{ij}$ 为 $[-\epsilon,\epsilon]$ 内的随机值， $\epsilon$ 和梯度检测无关， $\epsilon$ 接近0

训练神经网络的过程

选择一个合适的神经网络架构
随机初始化权重
使用前向传播算法
计算代价函数
使用反向传播算法计算偏导数
使用梯度检测检查反向传播算法的结果
使用最优化方法和反向传播算法结合来最小化