吴恩达机器学习课程笔记 | 第7章

Justin2022-02-122025-08-29

本系列文章如果没有特殊说明，正文内容均解释的是文字上方的图片
机器学习 | Coursera
吴恩达机器学习系列课程_bilibili

@TOC

7 正则化

7-1 过拟合问题

在这里插入图片描述

上图左侧坐标系为欠拟合，用一条直线不能很好的表示这个数据集，偏差很大
上图中间为合适的拟合
上图右侧为过度拟合，拟合的曲线波动很大，假定函数中的变量过多，虽然代价函数非常接近0，但不能泛化到其他数据集中
上图为在逻辑回归中的欠拟合、合适的拟合、过度拟合

在这里插入图片描述
解决过拟合：
1.减少特征数量
2.正则化

7-2 (正则化更改)代价函数

在这里插入图片描述
使用正则化更改代价函数

直接使用上图右侧的假定函数及其代价函数会导致过拟合
在不去掉$θ_3$和$θ_4$的前提下，可以在代价函数上加上对于$θ_3$和$θ_4$的惩罚项：$1000θ_3^2+1000θ_3^2$，（1000只是随便一个比较大的数），加上惩罚项之后的代价函数在运算中会让参数$θ_3$和$θ_4$变得尽可能小，让$θ_3$和$θ_4$对假定函数的图像影响变小，这样就可以在保留$θ_3$和$θ_4$参数的情况下不产生过拟合。

加上惩罚项后的假定函数变为：
$$J(θ)=\frac{1}{2m}
\left[
\sum_{i=1}^mCost(h_θ(x^{(i)}),y^{(i)})+1000θ_3^2+1000θ_3^2
\right]$$

由于我们一般不知道哪一项会导致过拟合，所以在代价函数中加入正则化项
加入后的代价函数为：
$$J(θ)=\frac{1}{2m}
\left[
\sum_{i=1}^mCost(h_θ(x^{(i)}),y^{(i)})+λ\sum_{j=1}^{n}θ_j^2
\right]$$
$λ$为正则化参数，一般不对$θ_0$增加惩罚项，所以$j$从$1$开始

7-3 线性回归的正则化

在这里插入图片描述

正则化后的梯度下降循环项如上图，由于在代价函数中没有添加对$θ_0$的惩罚项，所以对$θ_0$的更新分开表示
对于$j=1,2,3,…,n$的梯度下降项也可化简为上图的式子
可以得到$1-α\frac{λ}{m}$是一个小于1但非常接近1的数

使用正则化后得到的正规方程为：
在这里插入图片描述

这里只要$λ>0$，那么括号内计算得出的矩阵一定可逆
而在原来没有用正则化得出的正规矩阵$θ=(X^TX)^{-1}X^Ty$中，如果$m<n$（m为样本数，n为特征数），那么括号内矩阵不可逆（是奇异矩阵），所以正则化也可以应用于样本数小于特征数时的情况，让括号内矩阵可逆

7-4 逻辑回归的正则化

正则化后逻辑回归的代价函数改为：
$$J(θ)=-\frac{1}{m}\left[\sum_{i=1}^my^{(i)}log(h_θ(x^{(i)}))+(1-y^{(i)})log(1-h_θ(x^{(i)}))\right]+\frac{λ}{2m}\sum_{j=1}^{n}θ_j^2$$
在这里插入图片描述
正则化后的梯度下降循环项如上图