吴恩达机器学习课程笔记 | 第7章

本系列文章如果没有特殊说明,正文内容均解释的是文字上方的图片
机器学习 | Coursera
吴恩达机器学习系列课程_bilibili

@TOC

7 正则化

7-1 过拟合问题

在这里插入图片描述

  • 上图左侧坐标系为欠拟合,用一条直线不能很好的表示这个数据集,偏差很大
  • 上图中间为合适的拟合
  • 上图右侧为过度拟合,拟合的曲线波动很大,假定函数中的变量过多,虽然代价函数非常接近0,但不能泛化到其他数据集中
    在这里插入图片描述
  • 上图为在逻辑回归中的欠拟合、合适的拟合、过度拟合

在这里插入图片描述
解决过拟合:
1.减少特征数量
2.正则化

7-2 (正则化更改)代价函数

在这里插入图片描述
使用正则化更改代价函数

  • 直接使用上图右侧的假定函数及其代价函数会导致过拟合
  • 在不去掉$θ_3$和$θ_4$的前提下,可以在代价函数上加上对于$θ_3$和$θ_4$的惩罚项:$1000θ_3^2+1000θ_3^2$,(1000只是随便一个比较大的数),加上惩罚项之后的代价函数在运算中会让参数$θ_3$和$θ_4$变得尽可能小,让$θ_3$和$θ_4$对假定函数的图像影响变小,这样就可以在保留$θ_3$和$θ_4$参数的情况下不产生过拟合。

加上惩罚项后的假定函数变为:
$$J(θ)=\frac{1}{2m}
\left[
\sum_{i=1}^mCost(h_θ(x^{(i)}),y^{(i)})+1000θ_3^2+1000θ_3^2
\right]$$

由于我们一般不知道哪一项会导致过拟合,所以在代价函数中加入正则化项
加入后的代价函数为:
$$J(θ)=\frac{1}{2m}
\left[
\sum_{i=1}^mCost(h_θ(x^{(i)}),y^{(i)})+λ\sum_{j=1}^{n}θ_j^2
\right]$$
$λ$为正则化参数,一般不对$θ_0$增加惩罚项,所以$j$从$1$开始

7-3 线性回归的正则化

在这里插入图片描述

  • 正则化后的梯度下降循环项如上图,由于在代价函数中没有添加对$θ_0$的惩罚项,所以对$θ_0$的更新分开表示
    在这里插入图片描述
  • 对于$j=1,2,3,…,n$的梯度下降项也可化简为上图的式子
  • 可以得到$1-α\frac{λ}{m}$是一个小于1但非常接近1的数

使用正则化后得到的正规方程为:
在这里插入图片描述

  • 这里只要$λ>0$,那么括号内计算得出的矩阵一定可逆
  • 而在原来没有用正则化得出的正规矩阵$θ=(X^TX)^{-1}X^Ty$中,如果$m<n$(m为样本数,n为特征数),那么括号内矩阵不可逆(是奇异矩阵),所以正则化也可以应用于样本数小于特征数时的情况,让括号内矩阵可逆

7-4 逻辑回归的正则化

正则化后逻辑回归的代价函数改为:
$$J(θ)=-\frac{1}{m}\left[\sum_{i=1}^my^{(i)}log(h_θ(x^{(i)}))+(1-y^{(i)})log(1-h_θ(x^{(i)}))\right]+\frac{λ}{2m}\sum_{j=1}^{n}θ_j^2$$
在这里插入图片描述
正则化后的梯度下降循环项如上图