吴恩达机器学习四——过拟合和正则化

Cautiousnut

2022-02-23

机器学习

过拟合问题

概念
- 欠拟合：不能很好的拟合所给数据
- 过拟合：可以很好的拟合所给数据，但是并不能真实反映变化趋势，在训练集之外的数据上表现欠佳，无法泛化到更多数据。
过拟合解决方案
- 减少选取的变量x的数量。人工或者算法选择
- 正则化。保留所有变量，但是降低阶数或者减小 $\theta_j$

正则化

线性回归正则化

代价函数

假设拟合函数为 $\theta_0+\theta_1x+\theta_2x^2+\theta_3x^3+\theta_4x^4$ ，代价函数为 $\mathop{min}\limits_{\theta}\frac{1}{2m}\sum^m_{i=1}(h_\theta(x^i)-y^i)^2$ 。此时出现过拟合现象。此时可以将代价函数改为 $\mathop{min}\limits_{\theta}\frac{1}{2m}\sum^m_{i=1}(h_\theta(x^i)-y^i)^2+1000\theta_3^2+1000\theta_4^2$ ，来使得 $\theta_3,\theta_4$ 的值最小，以此降低高阶项的影响，从而解除过拟合。即当拟合函数中存在高阶变量且出现过拟合时，可以给高阶变量的参数设定一定的惩罚机制，将高阶变量的影响降到最低。

如果只知道变量，而不知道啊变量的具体阶数，此时可以修改代价函数为 $\frac{1}{2m}[\overset{m}{\mathop{\sum}\limits_{i=1}}(h_\theta(x^i)-y^i)^2+\lambda\overset{m}{\mathop{\sum}\limits_{j=1}}\theta_j^2]$ 来缩小每一个参数。其中 $\lambda$ 称为正则化参数，用于控制两项之间的关系，以更好的进行拟合。

注意，正则化惩罚的参数为 $\theta_1,\theta_1,\dots,\theta_n$ ，没有惩罚 $\theta_0$ 。

梯度下降算法的正则化

重复执行

$\begin{array}{ll}\theta_0&:=\theta_0-\alpha\frac{1}{m}\overset{m}{\mathop{\sum}\limits_{i=1}}(h_\theta(x^i)-y^i)x^i_0\\\theta_j&:=\theta_j(1-\alpha\frac{\lambda}{m})-\alpha\frac{1}{m}\overset{m}{\mathop{\sum}\limits_{i=1}}(h_\theta(x^i)-y^i)x^i_j\space,\space(j=1,2,3,\dots,n)\end{array}$

标准方程算法的正则化

$\theta$ 的求解公式变为

$\theta = (X^TX+\lambda\begin{bmatrix}0&&\cdots&&0\\&1&&&\\\vdots&&1&&\vdots\\&&&\ddots&\\0&&\cdots&&1\end{bmatrix})^{-1}X^Ty$ ，矩阵为 $(n+1)\times(n+1)$ 阶， $n$ 为变量数

当 $\lambda>0$ 时，括号内的矩阵一定可逆

逻辑回归正则化

代价函数

修改为 $J(\theta) = -\frac{1}{m}\overset{m}{\mathop{\sum}\limits_{i=1}}[y^ilog(h_\theta(x^i))+(1-y^i)log(1-h_\theta(x^i))]+\frac{\lambda}{2m}\overset{n}{\mathop{\sum}\limits_{j=1}}\theta_j^2$

梯度下降算法的正则化

重复执行

高级算法的正则化

首先定义一个costFunction(theta)，此函数返回代价函数值和代价函数的偏导数的值。

function [jVal,gradient] = costFunction(theta)
  jVal = (theta(1)-5)^2+(theta(2)-5)^2;
  gradient = zeros(2,1);
  gradient(1) = 2*(theta(1)-5);
  gradient(2) = 2*(theta(2)-5);

costFunction

然后设置参数，并调用高级优化函数

1
2
3

options = optimset('GradObj','on','MaxIter','100');
initialTheta = zeros(2,1);
[optTheta,functionVal,exitFlag] = fminunc(@costFunction,initialTheta,options)